行业大模型的“燃料革命”:高质量数据集助推产业智能升级

责任编辑:王鹤迦 2025.07.07 08:49 来源:天翼智库

通信世界网消息(CWW)在数字化转型浪潮中,行业大模型被视为推动产业升级的核心引擎。但是,当前大多数行业大模型面临着训练数据的质量缺陷导致模型“逻辑混乱的伪推理”巨大挑战。2025年4月30日全国数据标准化技术委员会秘书处发布了《高质量数据集建设指南(征求意见稿)》,对高质量数据集建设的全生命周期要求,包括数据需求、数据规划、数据采集、数据预处理、数据标注、模型验证等阶段提出了建设指南,同时对高质量数据集分类、质量评测规范、面向数据流通的匿名化效果评估方法及处理实施、数据基础设施的参考架构、互联互通基本要求等都拟定了标准草案,标志着中国产业智能化将进入“数据精耕”时代。唯有持续完善数据的供给、标准、安全、价值多向发力,才能让行业大模型真正成为驱动产业升级的“超级引擎”,在这场全球智能竞赛中抢占制高点。

数据质量缺陷制约行业大模型发展

首先,数据供给不足。行业大模型对数据的需求多样,不同行业部门对模型场景数据的需求各不相同,特别是在工业、医疗、金融、交通等垂直领域,公共数据来源显著不足,难以满足大模型训练的需求。大型平台或企业出于商业利益与知识产权的考虑,更倾向于独享数据资源,常以保护信息、防范安全风险等理由拒绝共享数据。

其次,数据质量参差不齐。在行业大模型的实际建设中,对于构建和采买的数据没有统一衡量标准,不同系统产生的数据格式多样,行业数据集普遍存在分布偏差、颗粒度不一致、采集缺失甚至错误数据等问题,极大影响了大模型的训练效果和预测准确性,造成训练资源浪费。而且在数据标注智能化、专业化程度目前都比较初级,专业数据处理人员数量缺口较级新浪潮

这场由高质量数据集引发的“燃料革命”,正在重塑行业大模型的发展逻辑,数据质量决定模型智能上限、数据生态构建产业竞争壁垒。行业高质量数据集的加速汇聚共享,将为人工智能产业发展提供充足燃料,针对不同场景进行持续训练优化,推动行业大模型的落地应用,助力产业智能化升级。

1.构建标准化数据集体,保证高质量数据集生命周期内的有效高质运行

高质量数据集可通过强化标准引领,建立标准化数据集体系,从通识数据集、行业通识数据集、行业专识数据集分类着手,按照高质量数据集的生命周期有序展开,包括数据需求、数据采集、数据处理、数据管理、模型验证等阶段,各阶段按顺序逐步开展,并对其它阶段有序进行反馈和迭代。

2.充分的数据供给,可提升行业大模型性能,推动产业技术与应用创新

数据源充足的高质量数据集是行业大模型训练的“营养基”,能够显著提升模型的准确性和泛化能力,加载更丰富的行业场景数据,提升模型在特定领域的专业性和适配性。如上海中城交通达大模型,利用其积累多年的交通行业专用语料库,整合了6大类30小类多模态数据集,超200万份行业技术文档、10万公里道路设施数字档案、5万例管理场景案例,为大模型训练和推理提供数据基础,精准制定交通信号优化方案,在试点城市让路口的通行效率提升15%左右,推动行业发展与创新。

3.数据质量有保证的高质量数据集,可助推行业数字化转型

根据行业特点,对于数据的颗粒度,根据业务需求设定统一的规范,如数据来源、数据格式、数据质量、数据接口等,规范数据采集流程并做好数据挖掘、分析、应用和管理,由此形成的高质量数据集能够为行业大模型提供精准、丰富的训练素材,提升模型在特定领域的性能和适应性,行业大模型在更多领域的深度应用,加速行业的数字化转型。如中国电子科技集团联合国家能源集团构建了超10万组高质量光谱煤质数据集,研发了“融合光谱煤质快检技术”,大幅提升了检测效能,检测时间由8小时减至2分钟,检测能力由1克提升至1000千克以上,复杂煤种通过率从60%提升到100%。

4.促进数据流通与共享,提高数据利用率,提升数据要素价值

国家提出了数场、数联网、数据元件、数据空间、隐私计算和区块链等六条技术路线,推动形成横向联通、纵向贯通、协调有力的国家数据基础设施基本格局。高质量数据集的建设不仅可以提升数据的可用性,还通过数据流通基础设施加速了数据的开放共享,充分释放数据要素价值并构建完备的数据生态,推动传统行业的数字化升级。

5.推动产业智能化升级,赋能实体经济

高质量数据集结合大模型与智能体开发框架,可快速构建各类行业应用,赋能各行业的数智化转型。如国家能源投资集团研发的煤炭工业设备综合诊断运维大模型,覆盖27类关键设备,实现故障预警准确率超90%、诊断准确率超85%,设备综合寿命提升20%,年检修成本降低15%,实现煤炭行业在减人、增安、提效等方面的智能化升级。


通信世界网版权及免责声明:
1、凡本网注明“来源:通信世界全媒体”及标有原创的所有作品,版权均属于通信世界网。未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载我方内容的单位,也必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和本站来源。
2、凡本网注明“来源:XXX(非通信世界网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的,请在相关作品刊发之日起30日内进行。
发表评论请先登录
...
热点文章
    暂无内容