中国移动研究院段晓东:构建超万卡新型智算集群需要科学技术的创新突破

责任编辑:包建羽 2024.05.22 08:08 来源:中国移动研究院

通信世界网消息(CWW)5月16日,中国移动研究院副院长段晓东受邀参加2024世界电信日和信息社会日大会“智算融合创新发展论坛”,发表《大规模超万卡新型智算集群的思考与展望》主题演讲。

段晓东表示,大模型的竞争热潮正在驱动智算中心从千卡集群向万卡甚至超万卡集群演进。但超万卡集群的建设仍处于起步阶段,仍有很多问题亟待解决,中国移动大力推进全调度以太网GSE、全向智感互联OISA、算力原生等原创核心技术成熟,为超万卡集群的创新突破做好技术储备。

image.png

段晓东在演讲中提到,当前大算力仍然是大模型创新落地的关键,随着万亿模型的出现,包括Google、Meta等在内的国内外大型科技公司都在积极投建万卡或超万卡集群,中国移动也正在内蒙古等地建设一批超万卡集群。然而在国外高端芯片断供的背景下,构建基于国产生态体系、技术领先的超万卡集群将面临诸多挑战,包括极致算力使用效率的挑战、海量数据处理能力的挑战、超大互联规模的挑战、集群高可用易运维的挑战以及高能耗高密度机房设计的挑战。

为此,中国移动提出了全调度以太网GSE、全向智感互联OISA和芯合算力原生等原创技术,攻关智算中心Scale Out网络和Scale Up互联问题,解决跨架构迁移和混合分布式训练难题。同时,为了解决因机房、供电、散热等因素限制单体智算中心规模的问题,中国移动正在着力研究跨集群分布式训练场景,通过在模型算法、平台调度、传输承载等不同层级的协同优化,解决大模型长距离分布式训练的难题。

段晓东表示,中国移动在构建超万卡集群过程中,积累了非常宝贵的实践经验,同时也遇到了不少难题,希望产业凝聚共识,一起应对超万卡集群建设和运营带来的前所未有的挑战,共同实现国产智算设施的又一次跨越式发展。

通信世界网版权及免责声明:
1、凡本网注明“来源:通信世界全媒体”及标有原创的所有作品,版权均属于通信世界网。未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载我方内容的单位,也必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和本站来源。
2、凡本网注明“来源:XXX(非通信世界网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的,请在相关作品刊发之日起30日内进行。
发表评论请先登录
...
热点文章
    暂无内容