韦乐平详解生成式AI的六大联网技术趋势

作者:包建羽 责任编辑:包建羽 2025.04.24 14:17 来源:通信世界网

通信世界网消息(CWW)4月23日,SNAI推委会荣誉主席、原中国电信科技委主任韦乐平在2025云网智联大会上指出,当前,国内的智算中心遍地开花,总数超280个,但GPU利用率很不均衡,饱的撑死,饿的饿死,平均不到30%。不仅如此,机内总线带宽与机间网络带宽不匹配,机间网络带宽太窄,算效不高。机内总线架构的开放性、兼容性和扩展性不理想。还缺乏可盈利的商业模式。

韦乐平认为,智算中心的联网场景包括Scale-OUT网络(机间网络)和Scale-UP网络(机内网络)。

image.png

其中,Scale-OUT网络用于机间构建超大规模GPU集群(例万卡集群),适用节点间的数据并行DP(高带宽)和流水线并行PP(中带宽),需支持百G级互联带宽、微纳秒时延、万卡级大规模组网,目前基于IB/R0CE的RDMA交换网络主导。

Scale-UP网络则用于机内小规模GPU卡间的高速互联,构建超级GPU节点。适用于张量并行TP等场景,带宽是Scale-0UT的10倍以上,需要支持T级互联带宽、百纳秒级时延、百卡级及以下的小规模互联,需要更加高效的联网技术(PCIe等)互联CPU、内存、GPU、网卡等组件,随着大模型业务的爆发,此类总线的带宽和性能已经难以支撑GPU互联的性能要求。

紧接着,韦乐平详解了生成式人工智能的六大联网技术趋势,即IB、以太网、芯片光互连、PCIe、CXL、OCS六个方面。

IB(InfiniBand)是一种用于高性能计算的计算机网络,具备高带宽、高扩展、高可靠性、无阻塞、超低时延(1μs)的特点。但需要采用专用硬件IB交换机和IB网卡,成本较高,扩展性受限。此外,产业生态较弱,过于封闭,由英伟达独家控制。IB最适用高性能计算和高质量大模型训练场景。

以太网是世界上规模最大的低成本联网技术,但是,其传统形态和协议已经不能满足大集群联网的苛刻性能需求。可从ROCE(一种基于以太网的RDMA)、无损以太网、超级以太网联盟(UEC)三个方向改进。以太网性价比全面赶超IB,预计2026年会起量。

芯片光互连的原理利用CMOS工艺,将光波导、耦合器和谐振器直接刻蚀在硅基上,再利用先进的封装技术将分立的具有特定功能的芯片组(各种XPU)集成进来,构成一个实用化的,结合SiP和Chiplet技术的光互连器。芯片光互连具有改进了计算集群的扩展性(超100T)和带宽(扩大5-10倍)、极低功耗、降低时延(可达10倍)、能效(4-8倍)和物理尺寸等优势。同时,芯片光互连也存在技术还不成熟、标准缺失等挑战,预计最快2026年就有产品。

PCIe是一种计算机串行扩展总线技术。自从1992年以来,PCe一直用于高速、低时延、高带宽场景,例如,数据中心内的非易失内存快线(MVMe)和GPU与CPU的互连等场景。当前应用最广的是PCIe5.0,2022年发布PCIe6.0,2025年计划发布PCIe7.0版本,期望进一步提升至128GT/S能力。

计算机快速链路CXL(Compute Express Link)是一种架构在PCle串行总线上的新接口协议和高速互连技术。CXL允许计算机系统内不同组件间进行快速、可靠的数据传输。CXL打破了CPU与内存间的捆绑关系,能够在维系CPU内存空间和设备内存一致性的前提下,实现更加灵活和高容量的内存池化架构。长期看,CXL将导致现有服务器架构的解构,将处理、内存和I/O分别纳入不同物理模块,使能资源的查询和共享,适应大集群的训练需要和高性能计算的需要。

光纤交换(OCS)是一种以光纤通道为交换颗粒的大容量交换。光纤交换与速率无关、去掉了大量高速光模块、拓扑更灵活、切换时间缩短至10毫秒级,谷歌的OCS号称带宽提高5倍,电力消耗下降41%,成本降30%。OCS近中期主要替代AIDC中的Spine层的电交换机,长期会进一步向外扩展。

通信世界网版权及免责声明:
1、凡本网注明“来源:通信世界全媒体”及标有原创的所有作品,版权均属于通信世界网。未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载我方内容的单位,也必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和本站来源。
2、凡本网注明“来源:XXX(非通信世界网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的,请在相关作品刊发之日起30日内进行。
发表评论请先登录
...
热点文章
    暂无内容