智源研究院发布开源中文互联网语料库CCI 4.0

责任编辑：王鹤迦 2025.05.08 14:59 来源：通信世界网

通信世界网消息（CWW）5月6日，智源研究院在法国巴黎举行的GOSIM全球开源创新论坛上发布大型开源文本数据集CCI 4.0，为全球的大模型创新发展再次提供重要的开源资源，并积极推动全球开源合作。

CCI 4.0兼顾多样性与高质量，从单一语言数据集扩展为多语种数据集。本次发布包括了中、英语两种语言，并将在随后的发布中，开源更多语言的版本。此外，CCI 4.0首次采用CoT方法进行推理轨迹数据合成，以提升预训练模型的基础推理能力。CCI 4.0数据集由智源研究院牵头，联合包括阿里云、上海人工智能实验室、华为、出门问问、金山办公、昆仑万维、面壁智能、奇虎科技、美团、稀宇科技、月之暗面、紫东太初、中科闻歌、科大讯飞等多个机构共同贡献。

此次开源的CCI 4.0-M2-V1包括3个子数据集，即CCI 4.0-M2-Base V1、CCI 4.0-M2-CoT V1和CCI 4.0-M2-Extra V1，数据总量达35TB。其中，CCI 4.0-M2-Base V1是中英双语数据集，数据总量达26000GB，中文数据量为4300GB，相较于CCI 3.0数据规模增加4倍；CCI 4.0-M2-CoT V1 是中英双语合成数据集，包含用于提升推理能力的超过4亿条逆向合成人类思考轨迹数据，总token数量达425B（4250亿），比当前全球最大的开源合成数据集Cosmopedia规模提升近20倍。

通信世界网版权及免责声明:

1、凡本网注明“来源：通信世界全媒体”及标有原创的所有作品，版权均属于通信世界网。未经允许禁止转载、摘编及镜像，违者必究。对于经过授权可以转载我方内容的单位，也必须保持转载文章、图像、音视频的完整性，并完整标注作者信息和本站来源。
2、凡本网注明“来源：XXX（非通信世界网）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的，请在相关作品刊发之日起30日内进行。

发表评论请先登录

发表评论

评价

共0条评论

...

热点文章

...

技术文章

...

会议活动