通信世界网消息(CWW)7月11日,中国移动联合新华三、朗美通在河北移动鹿泉智算中心,完成业界首次800G以太网智算协同训练的现网技术试验。本次试验采用IP与光融合GSE-DCI路由器方案,实现支持多个800G波长通道的彩光以太组网(Nx800G)。相较传统“路由器+传输设备”方案,新技术降低40%单比特成本、35%功耗及20%节点时延。在跨智算中心700亿参数大模型训练中,采用流水线并行(PP)方式,实现高达98%以上的等效算力效率,是探索跨智算中心互联的新架构和新技术的重要突破。
中国移动在中长距离800G以太网技术和国际标准领域持续发力。2024年,中国移动在IEEE 802.3工作组牵头完成800G以太网20km标准立项,是由中国公司主导的首个IEEE以太网基础标准立项;同时主导的20km和40km标准技术框架被IEEE采纳,统一了800G以太网20~120km技术标准路线。
基于此标准基础,本次试点采用了大容量路由器直接接入800G中长距彩光以太网模块的方案,单台设备将路由功能和长距光传输融合,单光纤可支持高达25.6T(基于32波长800G)的超大容量传输,避免了传统方案中“路由器+传输设备”组网带来的高功耗、高时延和高成本问题,满足了大模型协同训练对超高带宽与高密度接口的严苛要求。本次试验采用了中国移动研究院提出的GSE-DCI技术体系,通过将全调度负载均衡和拥塞控制技术,与高速彩光以太网融合,实现从智算中心内部到中心之间的端到端以太网互联,最大化协同网络资源,提升跨中心训练效率。
本次试验主要面向京津冀、长三角等区域城市群内分散部署的智算中心场景。这些智算中心通常在百公里级围绕城市群构建。新技术通过以太网彩光直接互联,将分散的算力资源高效整合,以低成本实现“聚沙成塔”,有效解决城市群算力碎片化问题。
本次试点验证了GSE-DCI两大核心技术创新。一是以太网层负载均衡:流量在多个800G波长通道上均衡分担,有效避免了流量分布不均问题。二是IP层快速拥塞控制:创新的广域快速拥塞感知(CNP)技术,通过设备主动监控网络拥塞并及时通知数据发送端降速,有效克服长距离传输引发的拥塞感知延迟和吞吐量下降,实现端侧广域长距无感。
本次试验有力验证了基于IP与光协同的GSE-DCI技术架构的可行性和先进性,不仅为智算分布式协同训练方案的标准化和规模应用奠定坚实基础,更为支撑千行百业AI算力服务发展提供了强大动能。后续,中国移动将继续推进GSE-DCI技术体系的完善,重点探索原创的SuperPipe、PhySec和FlexLane等新技术,致力于构建全球领先的AI算力网络基础设施,为千行百业的智能化升级提供强大引擎。