消息称DeepSeek R2单位成本下降97.3%,无需英伟达芯片

责任编辑:包建羽 2025.04.28 10:56 来源:通信世界网

通信世界网消息(CWW)据量子位消息,DeepSeek R2最新爆料,单位成本下降97.3%,并且摆脱了对英伟达芯片的依赖。具体详情如下。

●单位成本暴降97.3%:训练和推理的单位成本,比GPT-4o下降了惊人的97.3%。传言是输入0.07美元/每百万tokens,输出是0.27美元。

参数量和训练数据:R2模型参数量达1.2万亿,是R1的两倍。其中活跃参数为78亿,走的是混合专家模型(MoE)路线。另外,R2的训练数据量达5.2PB,覆盖范围极广。

摆脱英伟达芯片:整个训练完全没用英伟达显卡,而是全部基于华为的Ascend 910B集群。团队自主搭建了分布式训练框架,在浮点16位(FP16)精度下,实测集群算力达到512 PetaFLOPS,集群利用率高达82%,整体性能约为英伟达A100集群的91%。

性能方面:在最新的C-Eval 2.0评测中,R2取得了89.7%的得分,在COCO图像测试中则实现了92.4%的准确率,展现出强大的综合性能。

量化压缩技术:DeepSeek R2在8bit精度下,模型体积压缩了83%,而精度损失不到2%,大幅提升了端侧部署的可行性。

值得注意的是,目前上述信息还没有获得内部人士证实。


通信世界网版权及免责声明:
1、凡本网注明“来源:通信世界全媒体”及标有原创的所有作品,版权均属于通信世界网。未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载我方内容的单位,也必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和本站来源。
2、凡本网注明“来源:XXX(非通信世界网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的,请在相关作品刊发之日起30日内进行。
发表评论请先登录
...
热点文章
    暂无内容