王春晖:以高质量数据集夯实人工智能产业底座

责任编辑:孙天 2026.06.09 14:14 来源:通信世界网

通信世界网消息(CWW)2026 年 6 月 3 日,国家数据局正式印发《关于推进行业高质量数据集建设行动的实施方案》(以下简称《实施方案》)。这是我国立足数据要素市场化配置与“人工智能+”两大国家战略,顺应人工智能技术范式深度变革、产业规模化落地趋势出台的顶层设计文件。文件首次在国家层面搭建起全链条、体系化、可落地的行业高质量数据集建设框架,直面当前人工智能产业 “重模型、轻数据”“重规模、轻质量”“重研发、轻落地” 的结构性矛盾,将高质量数据集确立为人工智能迭代升级,实体经济数智转型的核心生产资料。

4ea82543fc81151bdefae9b22a98d808.jpg

方案以六大专项行动为抓手,打通数据供给、加工、质检、应用、治理、价值转化全链路,推动形成 “数据驱动模型、模型赋能产业、产业反哺数据” 的正向循环,标志着我国人工智能发展正式迈入数据质量引领、场景应用驱动、价值循环赋能的全新阶段,对夯实我国 AI 产业核心竞争力、培育智能经济新增长极,具备全局性、战略性与里程碑意义。

一、聚焦 AI 范式变革,重构产业底层逻辑

当前,全球人工智能技术正处在关键转型窗口期,发展范式从传统大语言模型的单轮对话、内容生成,加速向多模态融合、逻辑推理、智能体决策、具身智能、物理交互、世界模型等方向全面演进。技术形态的迭代升级,对训练数据的丰富度、专业性、逻辑性、真实性与场景适配性提出了前所未有的严苛要求。算力、算法、数据作为人工智能三大核心支柱,其价值逻辑正在发生深刻重构:算力是运行基础,算法是技术内核,而高质量数据集决定了人工智能模型的能力边界、应用精度与落地价值,是贯穿技术研发与产业应用的根本底座。

长期以来,国内人工智能产业存在明显发展误区:行业过度聚焦模型参数扩容、算力集群搭建,却忽视数据体系建设;市场片面追求数据集体量规模,普遍存在数据来源杂乱、标注精度不足、知识密度偏低、场景匹配度较差等问题。低质数据直接引发模型幻觉、逻辑失准、泛化能力薄弱等顽疾,成为制约人工智能从技术试验走向产业深耕的最大瓶颈。与此同时,行业数据供给碎片化、公共数据与行业数据融合程度不足、垂直领域专业数据稀缺、数据流通与价值变现机制缺失等问题相互交织,进一步加剧 “数据孤岛” 与供需错配现象。

在此背景下出台的《实施方案》,精准把握全球 AI 竞争重心由 “算力比拼” 转向 “数据博弈” 的大势,明确将行业高质量数据集定义为推动 “人工智能 +” 赋能千行百业、实现产业落地的基础性、关键性资源。这一定位跳出 “数据为模型配套” 的传统认知,确立数据要素与人工智能共生演进、双向赋能的全新发展逻辑。

方案紧扣 “十五五” 规划纲要与 “人工智能+” 行动总体部署,遵循 “需求牵引、急用先行、应用验证、安全保障” 四大原则,设定 2028 年阶段性发展目标,从数据集供给、应用场景、市场主体、标准工具四大维度系统布局。其核心战略意图,是通过补齐数据短板、健全数据体系、释放数据价值,夯实我国人工智能产业自主可控根基,推动 AI 技术深度融入实体经济,在全球数字与智能产业竞争中构筑先发优势。

二、六大专项行动贯通全链条,打造数据飞轮生态

《实施方案》围绕数据集 “生产、加工、质检、应用、治理、变现” 全生命周期,统筹部署强基扩容、标注攻坚、提质增效、应用赋能、管理服务、价值释放六大专项行动。六大行动环环相扣、层层递进,完整构建起 “场景牵引数据、数据驱动模型、模型赋能应用、应用创造价值” 的数据飞轮运行体系,形成覆盖全域、衔接上下游、兼顾当前与长远的系统化解决方案。

(一)全域拓展数据供给,适配 AI 前沿发展需求

数据供给不足、领域覆盖有限、模态类型单一,是制约垂直行业人工智能落地的首要障碍。强基扩容行动作为整套体系的起点,核心目标是做大优质数据供给总量、优化数据供给结构。

在覆盖范围上,方案兼顾传统重点行业与未来创新赛道:一方面聚焦工业制造、农业、能源、交通、金融、医疗、教育、城市治理等 19 个国民经济支柱领域,夯实存量产业数据基础;另一方面瞄准低空经济、具身智能、智能驾驶、智慧海洋、生物制造等战略性新兴领域,前瞻布局前沿赛道数据集建设,实现传统产业与新兴业态全覆盖。

在建设模式上,坚持 “清单化管理+试点先行+主体协同” 实施路径,要求各地全面梳理数据资源与应用需求,建立双向清单;充分发挥产业链链主企业的整合作用,以联合体模式推动上下游协同共建,鼓励链主企业开放自有数据集、为中小企业提供数据服务,以龙头带动产业整体升级。同时明确加大公共数据开发利用力度,推动公共数据与市场化行业数据深度融合,盘活存量数据资源。

在数据形态上,深度适配人工智能全技术链路,既统筹文本、图像、音视频、点云、时序数据等传统多模态数据,也重点布局知识图谱、行业知识库、逻辑推理、长程交互、真机环境交互等专业化数据集;同步支持仿真合成数据技术落地应用,破解稀缺场景数据采集难度大、成本偏高的痛点,全面支撑预训练、指令微调、强化学习、智能体、具身智能、世界模型等各类 AI 形态发展。

在基础设施层面,推动数据集与国家一体化数据基础设施深度联动,依托隐私计算、可信数据空间等技术,实现数据安全存储、可信流通,推动行业数据从分散零散的个体持有,转向集约化、标准化、规范化供给,从基础设施层面保障数据供给体系高效运转。

(二)推动数据标注攻坚行动,实现高价值专业标注发展

数据标注是将行业知识、业务逻辑、专业经验植入原始数据的核心环节,标注质量直接决定数据集的知识密度与实用价值。当前,国内数据标注产业仍以劳动密集型模式为主,自动化水平偏低、专业人才匮乏、高端标注能力不足,在医疗、工业、金融等专业领域,标注偏差、语义失真、逻辑缺失等问题尤为突出。

标注攻坚行动直指产业短板,推动数据标注实现三大转型:一是技术模式转型,大力研发智能化标注工具,推广 “模型预标注+人工校准”“人机协同核验” 等新型作业模式,以技术赋能提升标注效率与标准化水平;二是产业属性转型,建立行业专家认证机制,引导资深行业专家深度参与高难度、高价值的专业标注工作,推动标注产业从劳动密集型向知识密集型、高附加值产业升级;三是产业布局转型,在现有七个先行试点城市基础上,梯次布局数据标注创新试验区,培育龙头企业、独角兽企业,打造产业集聚效应。

同时,方案将人才体系建设摆在突出位置,依托院校增设专业课程、深化产教融合、完善职业技能认定,构建分层分类的专业人才队伍;依托灵活就业模式拓宽就业渠道,实现产业升级与就业扩容双向赋能。

(三)提质增效行动:健全质量管控体系,树立 AI 就绪数据标准

高质量数据集需要满足结构完整、内容多元、标注精准、模型适配的核心要求,即国际通行的AI-Ready(人工智能就绪) 标准。提质增效行动以 “质量” 为核心,搭建技术、标准、测评三位一体的质量保障体系。

技术层面,聚焦数据清洗、数据增强、智能配比、质量质检等关键技术攻关,运用智能筛选、数据合成等技术精简数据集规模、提升知识密度,有效降低模型训练与推理成本。标准层面,加快数据集格式、分类、标注规范、质量评价等国家标准研制与落地,推动行业标准、地方标准与国家标准协同联动,并将标准纳入政府采购、招投标等应用场景,以政策引导强化标准落地执行。

测评层面创新构建 “数据质量验证+模型应用反馈” 的双向测评体系,建设全域测评数据集;同时发起联合测评倡议,推行 “一次测评、全国互认”机制。这一举措打破区域、机构之间的测评壁垒,避免重复测评、重复校验,大幅降低数据流通的制度性成本,在全国范围内建立统一可信的数据质量信用体系。

(四)坚持场景导向,打通数模融合落地通道

数据的生命力在于应用,脱离实际场景的数据集仅是静态资源,无法形成价值闭环。应用赋能行动坚守 “以用促建、以建促用” 理念,构建 “场景、数据、模型” 协同发展的良性机制。

一方面,发挥 “人工智能+” 场景牵引作用,以模型落地需求反向定义数据建设方向,推动数据供给与业务场景精准匹配,吸引各类数据资源持续汇聚、迭代优化;另一方面,深度结合 “数据要素×” 行动,利用模型运行产生的动态交互数据、场景反馈数据持续优化数据集,形成双向迭代格局。方案提出打造 “数据赋能工场”、智能体落地标杆案例,推动数据集从单纯的训练素材,转变为解决行业实际问题的核心工具。

在生态协同上,搭建 “政产学研用金” 多元合作平台,常态化开展供需对接,破除数据孤岛与行业壁垒;同时坚持开放发展,在严守安全底线的前提下,健全数据集跨境流动规则,积极参与全球数据生态共建,提升我国在国际数据与人工智能领域的规则话语权。

(五)完善治理体系,筑牢合规、伦理与权益底线

健全的治理与服务体系,是数据集产业行稳致远的制度保障。管理服务行动围绕全生命周期管理、数据权益、伦理安全三大维度,构建规范化治理框架。

在全生命周期管理上,统筹建设 “物理分散、逻辑集中” 的国家级数据集管理服务系统,实现全国数据集目录、供需信息、流转状态互联互通,支持地方、行业平台对接并入,形成全国一体化的数据集管理网络;依托区块链、隐私计算等技术,实现数据全流程可管、可控、可追溯。

在权益制度上,严格落地数据持有权、使用权、经营权三权分置改革成果,针对合成数据、AI 训练用版权数据等新业态、新场景细化使用规则,完善数据授权、收益分配机制,在保护合法权益的同时包容技术创新,营造权责清晰、开放包容的制度环境。

在伦理与安全上,坚持伦理先行,制定数据集伦理规范,严禁采集、使用非法敏感数据,着力防范数据偏见、算法歧视等问题,坚守公平普惠的价值导向,确保技术发展服务于社会公共利益。

(六)创新价值实现路径,培育市场化发展生态

推动数据从资源转化为资产、资本,是数据要素市场化改革的核心目标。价值释放行动是整套方案的落脚点,围绕商业运营、资产化创新、市场共识培育三大方向,构建可持续的商业模式与价值体系。

商业模式方面,支持数据集在各类数据交易场所挂牌流通,升级传统售卖模式,发展订阅、定制、平台化服务等新业态,推动服务形态从基础数据包销售,向 API 调用、一体化数模解决方案、全栈技术服务进阶。方案最具突破性的探索,是首次正式提出构建以词元(Token)为核心的数据价值计量与交易体系。相较于传统按容量、按条数计价的模式,词元计价深度匹配大模型、智能体的运行逻辑,实现数据价值精细化、动态化、可量化定价,为全球数据定价体系探索中国路径。

资产化方面,鼓励开展数据集资产盘点、登记、价值评估试点,探索数据质押融资、作价入股、资产证券化、数据信托、数据保险等多元资产化模式,全面拓宽数据价值转化渠道,让数据资产真正具备金融属性。

市场培育方面,着力扭转 “数据免费使用” 的固有认知,建立全环节利益分配机制,保障数据采集、加工、标注、流通、应用各方主体共享收益。引导政府、国企、头部 AI 企业率先将数据采购纳入预算,带头践行数据有偿使用规则,逐步培育全社会 “为高质量数据付费” 的市场共识,构建良性循环的产业生态。

三、多维革新,重塑行业发展规则

相较于以往专项政策,本次《实施方案》立足技术前沿、产业痛点与改革方向,实现多项关键性、原创性创新,为行业发展划定新赛道、建立新规则。

第一,实现数据体系与 AI 技术范式深度同频。文件摒弃传统通用数据建设思路,紧跟多模态、智能体、具身智能、世界模型等新一代 AI 发展趋势,按照 AI 不同技术阶段、不同应用形态分类设计数据集建设路径,做到数据供给与技术演进精准匹配,从源头解决 “数据跟不上技术、技术脱离场景” 的问题,形成技术与数据协同演进的一体化体系。

第二,推动数据标注产业完成结构性升级。跳出单纯追求标注体量的传统思维,引入行业专家深度参与高端标注工作,推动标注产业从低端劳务输出转向高端知识服务,既补齐垂直领域专业数据短板,也重塑产业价值链,为劳动密集型产业转型升级提供示范样本。

第三,建立全国统一的数据质量互信机制。“一次测评、全国互认” 打破地域与机构壁垒,统一质量标准与测评工具,有效降低数据流通的交易成本与信任成本,是建设全国统一数据要素市场的重要实践,将大幅提升数据要素流通效率。

第四,首创基于词元(Token)的新型数据价值体系。直面大模型时代数据计价难、价值量化难的行业痛点,探索适配 AI 运行逻辑的定价与交易模式,突破传统数据计价框架,为数据商业化、资产化、金融化奠定计量基础,具备引领全球规则的潜力。

第五,构建全闭环数智融合生态。六大行动贯穿数据生产、加工、质检、应用、治理、价值变现全链条,打通数据、算法、模型、场景、资本各环节,彻底改变各主体各自为战、环节割裂的现状,真正形成 “数据飞轮”,实现自我强化、持续增长的生态格局。

四、全方位重塑产业格局,赋能数字经济升级

《实施方案》的落地实施,将从供给端、质量端、应用端、市场端、生态端五大维度,对我国数据产业与人工智能产业产生深层次、长期性影响。

在供给端,有效扩充高质量行业数据供给总量,补齐垂直领域、前沿领域数据短板。依托链主引领、公共数据融合、多元主体参与的模式,实现数据供给规模化、多元化、专业化,彻底缓解 AI 产业 “数据贫血” 困境,为模型迭代提供充足优质 “原料”。同时通过统筹规划,遏制低水平重复建设、同质化布局,引导行业走集约式、高质量发展道路。

在质量端,以国家标准、统一测评、全流程管控筑牢数据质量底线,树立 “优质优价” 的市场导向,倒逼行业淘汰劣质数据产品,推动数据集整体质量跃升,从根源上改善模型运行效果,提升人工智能技术的可靠性与实用性。

在应用端,以场景为核心牵引数据建设,推动 AI 技术走出实验室、深度嵌入实体经济各环节。工业、农业、医疗、交通、城市治理等领域将涌现更多成熟落地的 AI 应用,加速产业数字化、智能化转型,催生新业态、新模式,持续释放 “人工智能+” 的赋能效应。

在市场端,逐步培育数据有偿使用的市场共识,多元化商业模式与资产化路径落地,将全面激活数据要素市场活力。数据不再是附属资源,而是可交易、可评估、可融资的新型资产,数据产业的市场规模、产业价值将持续扩容,形成全新经济增长点。

在生态端,全国一体化数据集管理体系打破数据壁垒,“政产学研用金” 协同机制凝聚发展合力,国内数据与 AI 产业生态持续完善。同时,合规有序的跨境数据流动机制,将进一步提升我国在全球数据治理、AI 产业合作中的地位与影响力。

五、精准施策,保障方案稳步落地

《实施方案》蓝图清晰、体系完备,但在落地推进过程中,仍面临标准落地难、高端人才缺口大、市场培育周期长、数据安全风险复杂、跨部门协同难度大等现实挑战。结合产业实际,提出以下推进路径:

一是强化统筹协同,细化属地落实举措。国家层面持续发挥统筹协调作用,建立跨部门、跨领域协同推进机制,细化六大专项行动实施细则,明确任务清单、时间节点与考核标准。各地区结合本地产业基础、行业特色制定配套政策,合理安排财政经费,科学布局试点项目,杜绝盲目跟风、重复建设,做到因地制宜、有序推进。

二是加快标准体系落地,动态迭代规则规范。优先推进急用先行的数据集格式、标注、质量测评等国家标准发布与推广,建立标准动态更新机制,紧跟 AI 技术迭代节奏优化规范内容。强化标准宣贯与应用督导,依托政府采购、行业监管等手段推动标准全面落地,以标准引领行业规范化发展。

三是强化人才与技术双支撑。深化产教融合,优化专业人才培养体系,重点培育兼具行业知识、数据能力、AI 认知的复合型人才。支持企业、科研机构开展核心技术攻关,突破智能标注、数据合成、隐私保护、质量测评等关键技术,以技术创新降低建设成本、提升发展质效。

四是循序渐进培育市场化生态。坚持政府引导、市场主导,发挥党政机关、国有企业、头部科技企业的示范作用,率先落实数据有偿采购。稳步推进数据集资产化、金融化试点,总结可复制经验后逐步推广,避免一哄而上。健全利益分配机制,保障全链条主体合法收益,逐步形成健康可持续的市场生态。

五是严守安全与伦理两条底线。全面落实《数据安全法》《个人信息保护法》等法律法规,构建数据集全流程安全防护体系,重点防范数据投毒、数据污染、数据泄露及跨境数据相关风险。完善数据伦理审查机制,常态化开展伦理风险排查,防范算法歧视、数据滥用等问题,确保产业发展安全、合规、向善。

六、总结与展望

行业高质量数据集,是人工智能产业行稳致远的根基,也是数据要素价值充分释放的重要载体。国家数据局本次印发的《实施方案》,立足当下产业痛点、着眼长远技术变革、统筹国内发展与国际竞争,构建了一套逻辑严密、体系完整、务实可行的行动框架。六大专项行动环环相扣,从资源扩容到质量提升,从场景应用到价值变现,从制度治理到生态培育,全面打通数据与人工智能融合发展的堵点难点。

随着方案逐步落地,到 2028 年,我国将建成一批覆盖范围广、质量水准高、实用性能强的行业数据集,形成标准统一、测评互认、流通顺畅、价值多元的数据集产业体系,数据要素与人工智能深度融合的共生生态基本成型。高质量数据将持续驱动人工智能技术迭代升级,全面赋能千行百业转型升级,智能经济新增长点不断涌现。

放眼长远,以高质量数据集为抓手,我国将进一步巩固在人工智能、数据要素两大核心赛道的竞争优势,持续提升全球数字治理与智能产业规则话语权。数据、算法、算力三位一体协同发展的格局将愈发成熟,数据要素的基础作用、人工智能的赋能作用得到充分释放,为我国数字经济高质量发展、建设数字强国注入源源不断的核心动力。

作者系:南京邮电大学教授、浙江大学双聘教授,工业和信息化部信息通信经济专家委员会委员、中国数据要素50人论坛主席。


通信世界网版权及免责声明:
1、凡本网注明“来源:通信世界全媒体”及标有原创的所有作品,版权均属于通信世界网。未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载我方内容的单位,也必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和本站来源。
2、凡本网注明“来源:XXX(非通信世界网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的,请在相关作品刊发之日起30日内进行。
发表评论请先登录
...
热点文章
    暂无内容