王春晖：以高质量数据集夯实人工智能产业底座

责任编辑：孙天 2026.06.09 14:14 来源：通信世界网

通信世界网消息（CWW）2026 年 6 月 3 日，国家数据局正式印发《关于推进行业高质量数据集建设行动的实施方案》（以下简称《实施方案》）。这是我国立足数据要素市场化配置与“人工智能+”两大国家战略，顺应人工智能技术范式深度变革、产业规模化落地趋势出台的顶层设计文件。文件首次在国家层面搭建起全链条、体系化、可落地的行业高质量数据集建设框架，直面当前人工智能产业 “重模型、轻数据”“重规模、轻质量”“重研发、轻落地” 的结构性矛盾，将高质量数据集确立为人工智能迭代升级，实体经济数智转型的核心生产资料。

方案以六大专项行动为抓手，打通数据供给、加工、质检、应用、治理、价值转化全链路，推动形成 “数据驱动模型、模型赋能产业、产业反哺数据” 的正向循环，标志着我国人工智能发展正式迈入数据质量引领、场景应用驱动、价值循环赋能的全新阶段，对夯实我国 AI 产业核心竞争力、培育智能经济新增长极，具备全局性、战略性与里程碑意义。

一、聚焦 AI 范式变革，重构产业底层逻辑

当前，全球人工智能技术正处在关键转型窗口期，发展范式从传统大语言模型的单轮对话、内容生成，加速向多模态融合、逻辑推理、智能体决策、具身智能、物理交互、世界模型等方向全面演进。技术形态的迭代升级，对训练数据的丰富度、专业性、逻辑性、真实性与场景适配性提出了前所未有的严苛要求。算力、算法、数据作为人工智能三大核心支柱，其价值逻辑正在发生深刻重构：算力是运行基础，算法是技术内核，而高质量数据集决定了人工智能模型的能力边界、应用精度与落地价值，是贯穿技术研发与产业应用的根本底座。

长期以来，国内人工智能产业存在明显发展误区：行业过度聚焦模型参数扩容、算力集群搭建，却忽视数据体系建设；市场片面追求数据集体量规模，普遍存在数据来源杂乱、标注精度不足、知识密度偏低、场景匹配度较差等问题。低质数据直接引发模型幻觉、逻辑失准、泛化能力薄弱等顽疾，成为制约人工智能从技术试验走向产业深耕的最大瓶颈。与此同时，行业数据供给碎片化、公共数据与行业数据融合程度不足、垂直领域专业数据稀缺、数据流通与价值变现机制缺失等问题相互交织，进一步加剧 “数据孤岛” 与供需错配现象。

在此背景下出台的《实施方案》，精准把握全球 AI 竞争重心由 “算力比拼” 转向 “数据博弈” 的大势，明确将行业高质量数据集定义为推动 “人工智能 +” 赋能千行百业、实现产业落地的基础性、关键性资源。这一定位跳出 “数据为模型配套” 的传统认知，确立数据要素与人工智能共生演进、双向赋能的全新发展逻辑。

方案紧扣 “十五五” 规划纲要与 “人工智能+” 行动总体部署，遵循 “需求牵引、急用先行、应用验证、安全保障” 四大原则，设定 2028 年阶段性发展目标，从数据集供给、应用场景、市场主体、标准工具四大维度系统布局。其核心战略意图，是通过补齐数据短板、健全数据体系、释放数据价值，夯实我国人工智能产业自主可控根基，推动 AI 技术深度融入实体经济，在全球数字与智能产业竞争中构筑先发优势。

二、六大专项行动贯通全链条，打造数据飞轮生态

《实施方案》围绕数据集 “生产、加工、质检、应用、治理、变现” 全生命周期，统筹部署强基扩容、标注攻坚、提质增效、应用赋能、管理服务、价值释放六大专项行动。六大行动环环相扣、层层递进，完整构建起 “场景牵引数据、数据驱动模型、模型赋能应用、应用创造价值” 的数据飞轮运行体系，形成覆盖全域、衔接上下游、兼顾当前与长远的系统化解决方案。

（一）全域拓展数据供给，适配 AI 前沿发展需求

数据供给不足、领域覆盖有限、模态类型单一，是制约垂直行业人工智能落地的首要障碍。强基扩容行动作为整套体系的起点，核心目标是做大优质数据供给总量、优化数据供给结构。

在覆盖范围上，方案兼顾传统重点行业与未来创新赛道：一方面聚焦工业制造、农业、能源、交通、金融、医疗、教育、城市治理等 19 个国民经济支柱领域，夯实存量产业数据基础；另一方面瞄准低空经济、具身智能、智能驾驶、智慧海洋、生物制造等战略性新兴领域，前瞻布局前沿赛道数据集建设，实现传统产业与新兴业态全覆盖。

在建设模式上，坚持 “清单化管理+试点先行+主体协同” 实施路径，要求各地全面梳理数据资源与应用需求，建立双向清单；充分发挥产业链链主企业的整合作用，以联合体模式推动上下游协同共建，鼓励链主企业开放自有数据集、为中小企业提供数据服务，以龙头带动产业整体升级。同时明确加大公共数据开发利用力度，推动公共数据与市场化行业数据深度融合，盘活存量数据资源。

在数据形态上，深度适配人工智能全技术链路，既统筹文本、图像、音视频、点云、时序数据等传统多模态数据，也重点布局知识图谱、行业知识库、逻辑推理、长程交互、真机环境交互等专业化数据集；同步支持仿真合成数据技术落地应用，破解稀缺场景数据采集难度大、成本偏高的痛点，全面支撑预训练、指令微调、强化学习、智能体、具身智能、世界模型等各类 AI 形态发展。

在基础设施层面，推动数据集与国家一体化数据基础设施深度联动，依托隐私计算、可信数据空间等技术，实现数据安全存储、可信流通，推动行业数据从分散零散的个体持有，转向集约化、标准化、规范化供给，从基础设施层面保障数据供给体系高效运转。

（二）推动数据标注攻坚行动，实现高价值专业标注发展

数据标注是将行业知识、业务逻辑、专业经验植入原始数据的核心环节，标注质量直接决定数据集的知识密度与实用价值。当前，国内数据标注产业仍以劳动密集型模式为主，自动化水平偏低、专业人才匮乏、高端标注能力不足，在医疗、工业、金融等专业领域，标注偏差、语义失真、逻辑缺失等问题尤为突出。

标注攻坚行动直指产业短板，推动数据标注实现三大转型：一是技术模式转型，大力研发智能化标注工具，推广 “模型预标注+人工校准”“人机协同核验” 等新型作业模式，以技术赋能提升标注效率与标准化水平；二是产业属性转型，建立行业专家认证机制，引导资深行业专家深度参与高难度、高价值的专业标注工作，推动标注产业从劳动密集型向知识密集型、高附加值产业升级；三是产业布局转型，在现有七个先行试点城市基础上，梯次布局数据标注创新试验区，培育龙头企业、独角兽企业，打造产业集聚效应。

同时，方案将人才体系建设摆在突出位置，依托院校增设专业课程、深化产教融合、完善职业技能认定，构建分层分类的专业人才队伍；依托灵活就业模式拓宽就业渠道，实现产业升级与就业扩容双向赋能。

（三）提质增效行动：健全质量管控体系，树立 AI 就绪数据标准

高质量数据集需要满足结构完整、内容多元、标注精准、模型适配的核心要求，即国际通行的AI-Ready（人工智能就绪）标准。提质增效行动以 “质量” 为核心，搭建技术、标准、测评三位一体的质量保障体系。

技术层面，聚焦数据清洗、数据增强、智能配比、质量质检等关键技术攻关，运用智能筛选、数据合成等技术精简数据集规模、提升知识密度，有效降低模型训练与推理成本。标准层面，加快数据集格式、分类、标注规范、质量评价等国家标准研制与落地，推动行业标准、地方标准与国家标准协同联动，并将标准纳入政府采购、招投标等应用场景，以政策引导强化标准落地执行。

测评层面创新构建 “数据质量验证+模型应用反馈” 的双向测评体系，建设全域测评数据集；同时发起联合测评倡议，推行 “一次测评、全国互认”机制。这一举措打破区域、机构之间的测评壁垒，避免重复测评、重复校验，大幅降低数据流通的制度性成本，在全国范围内建立统一可信的数据质量信用体系。

（四）坚持场景导向，打通数模融合落地通道

数据的生命力在于应用，脱离实际场景的数据集仅是静态资源，无法形成价值闭环。应用赋能行动坚守 “以用促建、以建促用” 理念，构建 “场景、数据、模型” 协同发展的良性机制。

一方面，发挥 “人工智能+” 场景牵引作用，以模型落地需求反向定义数据建设方向，推动数据供给与业务场景精准匹配，吸引各类数据资源持续汇聚、迭代优化；另一方面，深度结合 “数据要素×” 行动，利用模型运行产生的动态交互数据、场景反馈数据持续优化数据集，形成双向迭代格局。方案提出打造 “数据赋能工场”、智能体落地标杆案例，推动数据集从单纯的训练素材，转变为解决行业实际问题的核心工具。

在生态协同上，搭建 “政产学研用金” 多元合作平台，常态化开展供需对接，破除数据孤岛与行业壁垒；同时坚持开放发展，在严守安全底线的前提下，健全数据集跨境流动规则，积极参与全球数据生态共建，提升我国在国际数据与人工智能领域的规则话语权。

（五）完善治理体系，筑牢合规、伦理与权益底线

健全的治理与服务体系，是数据集产业行稳致远的制度保障。管理服务行动围绕全生命周期管理、数据权益、伦理安全三大维度，构建规范化治理框架。

在全生命周期管理上，统筹建设 “物理分散、逻辑集中” 的国家级数据集管理服务系统，实现全国数据集目录、供需信息、流转状态互联互通，支持地方、行业平台对接并入，形成全国一体化的数据集管理网络；依托区块链、隐私计算等技术，实现数据全流程可管、可控、可追溯。

在权益制度上，严格落地数据持有权、使用权、经营权三权分置改革成果，针对合成数据、AI 训练用版权数据等新业态、新场景细化使用规则，完善数据授权、收益分配机制，在保护合法权益的同时包容技术创新，营造权责清晰、开放包容的制度环境。

在伦理与安全上，坚持伦理先行，制定数据集伦理规范，严禁采集、使用非法敏感数据，着力防范数据偏见、算法歧视等问题，坚守公平普惠的价值导向，确保技术发展服务于社会公共利益。

（六）创新价值实现路径，培育市场化发展生态

推动数据从资源转化为资产、资本，是数据要素市场化改革的核心目标。价值释放行动是整套方案的落脚点，围绕商业运营、资产化创新、市场共识培育三大方向，构建可持续的商业模式与价值体系。

商业模式方面，支持数据集在各类数据交易场所挂牌流通，升级传统售卖模式，发展订阅、定制、平台化服务等新业态，推动服务形态从基础数据包销售，向 API 调用、一体化数模解决方案、全栈技术服务进阶。方案最具突破性的探索，是首次正式提出构建以词元（Token）为核心的数据价值计量与交易体系。相较于传统按容量、按条数计价的模式，词元计价深度匹配大模型、智能体的运行逻辑，实现数据价值精细化、动态化、可量化定价，为全球数据定价体系探索中国路径。

资产化方面，鼓励开展数据集资产盘点、登记、价值评估试点，探索数据质押融资、作价入股、资产证券化、数据信托、数据保险等多元资产化模式，全面拓宽数据价值转化渠道，让数据资产真正具备金融属性。

市场培育方面，着力扭转 “数据免费使用” 的固有认知，建立全环节利益分配机制，保障数据采集、加工、标注、流通、应用各方主体共享收益。引导政府、国企、头部 AI 企业率先将数据采购纳入预算，带头践行数据有偿使用规则，逐步培育全社会 “为高质量数据付费” 的市场共识，构建良性循环的产业生态。

三、多维革新，重塑行业发展规则

相较于以往专项政策，本次《实施方案》立足技术前沿、产业痛点与改革方向，实现多项关键性、原创性创新，为行业发展划定新赛道、建立新规则。

第一，实现数据体系与 AI 技术范式深度同频。文件摒弃传统通用数据建设思路，紧跟多模态、智能体、具身智能、世界模型等新一代 AI 发展趋势，按照 AI 不同技术阶段、不同应用形态分类设计数据集建设路径，做到数据供给与技术演进精准匹配，从源头解决 “数据跟不上技术、技术脱离场景” 的问题，形成技术与数据协同演进的一体化体系。

第二，推动数据标注产业完成结构性升级。跳出单纯追求标注体量的传统思维，引入行业专家深度参与高端标注工作，推动标注产业从低端劳务输出转向高端知识服务，既补齐垂直领域专业数据短板，也重塑产业价值链，为劳动密集型产业转型升级提供示范样本。

第三，建立全国统一的数据质量互信机制。“一次测评、全国互认” 打破地域与机构壁垒，统一质量标准与测评工具，有效降低数据流通的交易成本与信任成本，是建设全国统一数据要素市场的重要实践，将大幅提升数据要素流通效率。

第四，首创基于词元（Token）的新型数据价值体系。直面大模型时代数据计价难、价值量化难的行业痛点，探索适配 AI 运行逻辑的定价与交易模式，突破传统数据计价框架，为数据商业化、资产化、金融化奠定计量基础，具备引领全球规则的潜力。

第五，构建全闭环数智融合生态。六大行动贯穿数据生产、加工、质检、应用、治理、价值变现全链条，打通数据、算法、模型、场景、资本各环节，彻底改变各主体各自为战、环节割裂的现状，真正形成 “数据飞轮”，实现自我强化、持续增长的生态格局。

四、全方位重塑产业格局，赋能数字经济升级

《实施方案》的落地实施，将从供给端、质量端、应用端、市场端、生态端五大维度，对我国数据产业与人工智能产业产生深层次、长期性影响。

在供给端，有效扩充高质量行业数据供给总量，补齐垂直领域、前沿领域数据短板。依托链主引领、公共数据融合、多元主体参与的模式，实现数据供给规模化、多元化、专业化，彻底缓解 AI 产业 “数据贫血” 困境，为模型迭代提供充足优质 “原料”。同时通过统筹规划，遏制低水平重复建设、同质化布局，引导行业走集约式、高质量发展道路。

在质量端，以国家标准、统一测评、全流程管控筑牢数据质量底线，树立 “优质优价” 的市场导向，倒逼行业淘汰劣质数据产品，推动数据集整体质量跃升，从根源上改善模型运行效果，提升人工智能技术的可靠性与实用性。

在应用端，以场景为核心牵引数据建设，推动 AI 技术走出实验室、深度嵌入实体经济各环节。工业、农业、医疗、交通、城市治理等领域将涌现更多成熟落地的 AI 应用，加速产业数字化、智能化转型，催生新业态、新模式，持续释放 “人工智能+” 的赋能效应。

在市场端，逐步培育数据有偿使用的市场共识，多元化商业模式与资产化路径落地，将全面激活数据要素市场活力。数据不再是附属资源，而是可交易、可评估、可融资的新型资产，数据产业的市场规模、产业价值将持续扩容，形成全新经济增长点。

在生态端，全国一体化数据集管理体系打破数据壁垒，“政产学研用金” 协同机制凝聚发展合力，国内数据与 AI 产业生态持续完善。同时，合规有序的跨境数据流动机制，将进一步提升我国在全球数据治理、AI 产业合作中的地位与影响力。

五、精准施策，保障方案稳步落地

《实施方案》蓝图清晰、体系完备，但在落地推进过程中，仍面临标准落地难、高端人才缺口大、市场培育周期长、数据安全风险复杂、跨部门协同难度大等现实挑战。结合产业实际，提出以下推进路径：

一是强化统筹协同，细化属地落实举措。国家层面持续发挥统筹协调作用，建立跨部门、跨领域协同推进机制，细化六大专项行动实施细则，明确任务清单、时间节点与考核标准。各地区结合本地产业基础、行业特色制定配套政策，合理安排财政经费，科学布局试点项目，杜绝盲目跟风、重复建设，做到因地制宜、有序推进。

二是加快标准体系落地，动态迭代规则规范。优先推进急用先行的数据集格式、标注、质量测评等国家标准发布与推广，建立标准动态更新机制，紧跟 AI 技术迭代节奏优化规范内容。强化标准宣贯与应用督导，依托政府采购、行业监管等手段推动标准全面落地，以标准引领行业规范化发展。

三是强化人才与技术双支撑。深化产教融合，优化专业人才培养体系，重点培育兼具行业知识、数据能力、AI 认知的复合型人才。支持企业、科研机构开展核心技术攻关，突破智能标注、数据合成、隐私保护、质量测评等关键技术，以技术创新降低建设成本、提升发展质效。

四是循序渐进培育市场化生态。坚持政府引导、市场主导，发挥党政机关、国有企业、头部科技企业的示范作用，率先落实数据有偿采购。稳步推进数据集资产化、金融化试点，总结可复制经验后逐步推广，避免一哄而上。健全利益分配机制，保障全链条主体合法收益，逐步形成健康可持续的市场生态。

五是严守安全与伦理两条底线。全面落实《数据安全法》《个人信息保护法》等法律法规，构建数据集全流程安全防护体系，重点防范数据投毒、数据污染、数据泄露及跨境数据相关风险。完善数据伦理审查机制，常态化开展伦理风险排查，防范算法歧视、数据滥用等问题，确保产业发展安全、合规、向善。

六、总结与展望

行业高质量数据集，是人工智能产业行稳致远的根基，也是数据要素价值充分释放的重要载体。国家数据局本次印发的《实施方案》，立足当下产业痛点、着眼长远技术变革、统筹国内发展与国际竞争，构建了一套逻辑严密、体系完整、务实可行的行动框架。六大专项行动环环相扣，从资源扩容到质量提升，从场景应用到价值变现，从制度治理到生态培育，全面打通数据与人工智能融合发展的堵点难点。

随着方案逐步落地，到 2028 年，我国将建成一批覆盖范围广、质量水准高、实用性能强的行业数据集，形成标准统一、测评互认、流通顺畅、价值多元的数据集产业体系，数据要素与人工智能深度融合的共生生态基本成型。高质量数据将持续驱动人工智能技术迭代升级，全面赋能千行百业转型升级，智能经济新增长点不断涌现。

放眼长远，以高质量数据集为抓手，我国将进一步巩固在人工智能、数据要素两大核心赛道的竞争优势，持续提升全球数字治理与智能产业规则话语权。数据、算法、算力三位一体协同发展的格局将愈发成熟，数据要素的基础作用、人工智能的赋能作用得到充分释放，为我国数字经济高质量发展、建设数字强国注入源源不断的核心动力。

作者系：南京邮电大学教授、浙江大学双聘教授，工业和信息化部信息通信经济专家委员会委员、中国数据要素50人论坛主席。

通信世界网版权及免责声明:

1、凡本网注明“来源：通信世界全媒体”及标有原创的所有作品，版权均属于通信世界网。未经允许禁止转载、摘编及镜像，违者必究。对于经过授权可以转载我方内容的单位，也必须保持转载文章、图像、音视频的完整性，并完整标注作者信息和本站来源。
2、凡本网注明“来源：XXX（非通信世界网）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的，请在相关作品刊发之日起30日内进行。

发表评论请先登录

发表评论

评价

共0条评论

...

热点文章

...

技术文章

...

会议活动