在数字化浪潮奔涌向前的当下,数据已然成为驱动各行业发展的核心生产要素。如同石油于工业时代的重要性,高质量数据对于数字经济时代的发展起着决定性作用。尤其是在人工智能领域,高质量数据集更是模型训练的基石,其质量高低直接关乎人工智能模型的性能和泛化能力。近期,全国数据标准化技术委员会发布(以下简称“全国数标委”)发布了《高质量数据集建设指南(征求意见稿)》等技术文件及标准草案,为高质量数据集的建设指明了方向,标志着我国在数据标准化建设方面迈出了重要一步。本文将从发布背景、主要内容、创新亮点以及企业启示等方面,对《高质量数据集建设指南(征求意见稿)》等技术文件进行解读。
发布背景
当前,以大模型为代表的人工智能技术正以前所未有的速度重塑全球产业格局。算法和算力领域均呈现出同质化竞争态势,数据集的重要性日益凸显。高质量数据集已成为支撑大模型训练与应用的重要基石,直接影响模型的可靠性、性能表现和泛化能力等关键指标。中国信息通信研究院副院长魏亮对此作出精辟比喻:“数据之于大模型,就像石油之于汽车。原油只有经过一系列复杂的过程炼化成汽油后,才能供汽车使用。同样,海量原始数据需要经过‘炼化’形成高质量数据集,才能助力大模型精准学习数据特征与规律。”
我国高度重视高质量数据集建设。2024年12月国家数据局发布《国家数据基础设施建设指引》,要求“研究制定高质量数据集建设相关标准”“制定高质量数据标注与交付规则,提高训练数据量”等。2025年2月,国家数据局牵头召开高质量数据集建设工作启动会,27个国家部委参与,建立跨部门协同机制,系统谋划2025年工作思路和落实举措,做好高质量数据集建设工作,加快推动形成一批标志性成果,赋能行业高质量发展。2025年4月30日,全国数标委发布《高质量数据集建设指南(征求意见稿)》技术文件,配套出台格式要求、分类指南、质量评测规范、建设指南等标准草案,标志着我国高质量数据集建设进入标准化新阶段。2025年5月29日,全国数标委组织中央企业高质量数据集建设研讨会,部署首批试点工作,推动标准验证落地。
主要内容
此次发布的技术文件及标准覆盖了高质量数据集建设的全链条,包括高质量数据集定义及格式要求、高质量数据集分类指南、高质量数据集质量评测规范、高质量数据集建设指南等主要内容。
(一)高质量数据集定义及格式要求
根据《高质量数据集格式要求(草案)》,高质量数据集是指“经过采集、加工等数据处理,可直接用于开发和训练人工智能模型,能有效提升模型性能的数据的集合”。
与传统原始数据相比,高质量数据集的核心差异在于高质量数据集可直接用于开发和训练人工智能模型,并且能有效提升模型性能。
《高质量数据集格式要求(草案)》中构建了覆盖数据集标识、内容、标注、时间、版本及授权等核心元数据的结构化框架,特别针对多模态数据(如文本、图像)和标注信息制定了专项格式规范,确保数据描述的完整性与可追溯性。
(二)高质量数据集分类指南
《高质量数据集分类指南(草案)》提出了将高质量数据分为以下三类:
(1)通识数据集:由蕴含通用知识的数据组成的数据集,无需专业背景即可理解。典型代表包括维基百科、Common Crawl网页语料库、新闻聚合文本等。此类数据集是训练语言理解能力和基础推理能力的基石,但在模型专业化应用中存在局限。
(2)行业通识数据集:由蕴含领域通用知识的数据组成的数据集,需要一定的专业背景方可理解和应用。例如医疗领域的PubMed文献库、金融领域的SEC filings数据集、工业领域的ISO标准库等。这类数据集为模型提供行业术语体系和基础逻辑框架,支撑行业大模型开发。
(3)行业专识数据集:由蕴含行业领域专业知识的数据组成的数据集,需要较深的行业背景和具体业务经验方可理解和应用。如中国移动的人时空三元组通信行业高质量数据集、航空工业集团的生产制造数据集、国家电网的输入电线无人机巡检图像缺陷智能识别场景高质量数据集等。这类数据集通常具有高壁垒性和场景特异性,是垂直领域模型差异化的核心壁垒。
(三)高质量数据集质量评测规范
《高质量数据集质量评测规范(草案)》提出高质量数据集质量量化评估体系,涵盖三大维度:
(1)文档完整性:要求数据集说明文档应包含基本信息完整性(规模、格式、文件结构等)、内容特征完整性(数据分布、样本示例等)、建设过程完整性(来源、标注规范等)和应用说明完整性(使用许可、基准测试等)等四项指标;
(2)质量合规性:包括结构完整性、安全规范性、标注规范性、内容专业性、内容真实性、内容干净性和内容一致性等八项指标;
(3)场景适用性:包含内容多样性、规模完整性、标注准确性及模型适配性等四项指标。
根据数据集的不同应用场景,3类高质量数据集的质量评测在内容专业性和模型适配性上有所不同,详见表1。
表1 不同类型高质量数据集的质量要求
(四)高质量数据集建设指南
《高质量数据集建设指南(征求意见稿)》为组织机构提供了高质量数据集系统化的建设方法论,包括数据需求、数据规划、数据采集、数据预处理、数据标注、模型验证等六个阶段,详见图1。
图1 高质量数据集建设方法
创新亮点
亮点一:以对数据资源的全方位描述为目标,提出“3+7”分类框架
《高质量数据集分类指南(草案)》提出“3+7”分类框架。通过三个知识类别和七个核心维度体系,实现对数据资源的全方位描述。
高质量数据集分类方法是从内容维度上,采用知识层级概念,将数据分为通识(如语言、图像等基础素材)、行业通识(如医疗影像、金融文本)和行业专识(如特定生产线的检测数据)三个类别。
每个数据集类别分别从七个核心维度来描述数据。七个核心维度分别为知识内容、来源类型、时效性、标注人员类型、敏感程度、模型类别和主题范围等,为业内人士进行高质量数据集分类提供了依据。
亮点二:以满足模型训推需求为出发点,创新新增“场景适用性”高质量数据集评测维度
根据国家标准(如GB/T 36344-2018,《信息技术 数据质量评价指标》),传统数据质量评价聚焦在规范性、完整性、准确性、一致性、时效性、可访问性等六个维度,以数据自身属性为核心,确保数据“合规可用”,但未解决AI场景下的适配性问题。
而本次《高质量数据集质量评测规范(草案)》在传统标准基础上,从数据集满足人工智能模型开发和训练的基本要求出发来描述文档完整性、质量合规性两个维度,并创新新增“场景适用性”维度:要求数据集明确内容多样性、规模完整性、标准准确性等大模型场景人工智能开发和训练场景的要求,并通过模型性能提升验证实际价值。该评测体系推动数据评测从“合规性”转向“AI效能”,为模型训练提供精准燃料。
总结与展望
高质量数据集作为人工智能发展的关键要素,对模型的训练、推理和验证起着决定性作用。对于企业而言,这些技术文件及标准具有很强的实践指导价值。
展望未来,随着数据要素市场的不断完善和企业对数据价值认知的深化,这里提出未来工作内容,供业界共同探讨:
(一)深化“3+7”分类框架的落地应用。企业结合自身业务特点,对“3+7”分类框架进行细化与调整,使其更贴合实际数据管理需求。通过建立动态的分类更新机制,确保数据分类能及时适应业务变化和技术发展,进一步提升数据资源管理的精准性和有效性。
(二)开展数据集动态质量评估与自适应优化方法研究。鉴于人工智能技术的快速发展和应用场景的不断变化,传统的静态质量评估方式难以满足需求。研究基于实时反馈的动态质量评估模型,结合用户反馈和模型应用效果,自动识别数据集质量短板,并通过算法优化实现数据集的自适应更新与完善,持续提升数据集对模型的适配性。