华为徐文伟:坚持系统架构创新,实现未来算网融合目标

作者:孟月 责任编辑:朱文凤 2022.08.25 07:27 来源:通信世界全媒体

通信世界网消息(CWW)随着一体化算力网络国家枢纽节点的建设和“东数西算”工程的全面启动,计算和网络的融合走向深水区。“要实现‘算网融合’的目标,需要更大的联接与算力支撑面向未来的真人全息、自动驾驶、XR等场景和随时随地10G Everywhere的需求。”华为董事、科学家咨询委员会主任徐文伟在2022年第六届未来网络发展大会上表示,“一方面,需要从架构创新与技术突破方面努力实现单级设备容量的突破,端口速率从400G到3.2T,单片容量从25.6T到400T以上,系统容量从512T到10P以上;另一方面,也需要支撑扩展到百万级的数据中心规模,微秒级的时延和整网级甚至全国一张网的负载均衡能力。”

image002.jpg

华为董事、科学家咨询委员会主任  徐文伟

创新算网融合架构,助力实现“智能世界2030

围绕人类社会发展的需求,华为尝试探索“智能世界2030”,为每个人、每个家庭、每个组织发掘新机会,创造关于未来的无限可能。华为预测,到2030年:全球通用计算(FP32)总量将达3.3 ZFLOPS,同比2020年增长十倍;AI计算(FP16)总量将达105 ZFLOPS,同比2020年增长500倍。2030年,通信网络的覆盖将从地面走向空天地一体,满足人们多空间,多维度的联接需求;强大的算力,助力千行万业从数字化走向智能化;智能汽车产业也将迎来智能驾驶、智慧空间、智慧服务和智能生产的大发展......

“超级算力是智能世界的关键需求。”徐文伟谈道,“展望2030年的智能世界,人工智能将无所不及,超级算力帮助我们更纵深地感知物理世界,更准确地模拟现实世界、探索未知领域,加速千行百业的数字化和智能化,实现数字世界和物理世界的无缝融合。”

未来网络正支撑着万亿级、人机物、全时空、安全、智能的连接与服务,描绘着网络发展的新蓝图。随着数字经济的蓬勃发展,新兴应用场景不断涌现,对网络技术提出了新的需求。“超级算力系统不但需要性能更强的CPU、GPU,以及更强大的AI算法、模型,还需要结合未来网络技术的最新发展,以算网融合架构助力超级算力系统发展。”徐文伟表示。

在他看来,未来网络技术研究将在3个方面做出贡献。一是采用正交架构、分布式直连拓扑等新技术,持续提升数据中心交换机设备容量、数据中心网络规模,支持百万级海量算力节点大规模互联。二是将智能无损网络技术应用到AI训练、存储、HPC等多种场景,把数据中心网络时延从毫秒级降低到微秒级,减少算力等待算据的空耗周期,将算力发挥到极致。三是面向一体化大数据中心、“东数西算”等新场景,探索长距智能无损网络、多目标算力路由等新技术,支持全网负载均衡,提供集约化低碳算力服务。

突破技术瓶颈首创DCN正交架构,持续提升设备容量

为了支持海量算力节点的大规模互联,需要大容量的数据中心交换机设备。传统框式设备采用PCB背板走线实现板卡槽位之间信号连接,受限于高速信号链路衰减,走线长度不能大于40英寸,在框式设备上只能支持8个线卡槽位。

值得关注的是,华为在2012年推出的数据中心交换机CloudEngine12800设备,首创“直接正交架构”,采用业务线卡和交换网板90度垂直互连的方式,背板0走线,减少了走线带来的高速信号链路衰减,支持前后风道,数据中心机房无需改造就可以满足冷热隔离的要求,整机支持24个40GE线速端口,并且支持线性扩容,是当时业界最高竞品的4倍。同样基于直接正交架构的新一代数据中心交换机CloudEngine16816,支持16个业务线卡槽位,提供768个400GE端口。

“实现正交架构面临高速信号传输、高密度和低损连接器和高效散热的工程瓶颈。通过系统架构创新和跨学科集成创新,我们突破了多个工程技术瓶颈,连续十年刷新数据中心核心交换机的业界容量极限。”徐文伟如是说。

据记者了解,在正交架构的技术创新的基础上,为了持续提升数据中心交换机的设备容量,华为还在研究更高速率的互联介质技术、更强的散热技术,并探索更多的设备新架构。

据介绍,在互联架构上,华为在业界推出对传输损耗的理论研究公式,从降低介电材料的Dk和Df以及改善导体材料的光滑度,趋肤效应和导电率来改善介质损耗与导体损耗。在散热技术上,华为基于“场协同原理”理论,持续优化散热速度场/温度场的“协同数”Fc,进一步研究从金属到石墨烯到金刚石的散热材料突破,挑战固体导热材料的极致性能。同时,深入探索沸腾换热微纳表面的加工工艺,拉远散热跨尺度/跨材料系统的集成工艺、复杂热源散热的拓扑优化工艺的散热工艺。力争在散热技术上获得突破。在设备架构上,华为还将探索从正交架构到直连拓扑的分布式交换机架构的可能性,希望突破设备的容量与供电限制,通过OIO互联技术完成高密度信号连接,实现单节点更大容量演进。

“为了支持海量算力节点的大规模互联,我们还需在数据中心交换机的组网拓扑上进一步创新。”徐文伟表示。目前主流组网拓扑为CLOS架构,以典型的128端口交换机测算,2级CLOS架构最大支持8000个计算节点互联。为了实现更大规模的算力互联,3级CLOS架构最大支持50万个计算节点互联,但跳数增加又带来了时延增加等问题。

华为创新地将直连拓扑引入到以太网络中,实现超大规模、低跳数的数据中心网络架构,以128端口交换机测算,最高可支持400万计算节点互联,相比2级CLOS架构提升了500倍,跳数不变。

此外,AI训练场景中,多台服务器向一台服务器同时发送大量报文的情况经常出现,多打一(incast)网络流量模型是常态。当报文大量排队、缓存溢出后,丢包、重传就会导致GPU等数据的现象,严重时CPU资源有50%的时间在空转。

而传统的流量控制算法在缓存超过一定“水线”时通知发送端,降低流量发送速度,但水线值的设置既不能太温柔、也不能太粗暴,还要根据计算任务的不同动态调整,不可实施。为此,华为创造性地引入智能算法代替专家经验,用流量数据、流量模型进行实时推理,得出最优ECN水线值,实现实时、精准的AI ECN流量控制。

探索多目标算力路由、广域智能无损,助力全国一体化大数据中心建设

面对全国一朵云、一张网的问题,华为提出要延续网络架构+软件创新思路,探索多目标路由来实现跨资源池一体化调度、探索广域智能无损实现1000公里级400G算力网络高吞吐。“面向全国一体化数据中心的场景,在控制面探索多目标算力路由,在数据面探索广域智能无损。”徐文伟谈道。

具体而言,多目标算力路由,通过新的网络和软件协同,将一个业务拆分为多个子任务,用多目标算力路由来实现跨数据中心资源池的统一调度、协同计算、算网融合;广域智能无损网络需要解决广域网络距离长反馈慢、路径多、均衡难、业务吞吐低的难题,支持全国一体化大数据中心的发展;需要探索广域网络拥塞控制新算法、网络负载均衡新技术、下一代链路流控协议等,以期获得广域高吞吐性能。

“面向未来,要实现算网融合的目标,通过更大的联接与算力,支撑面向未来的真人全息、自动驾驶、XR等场景和随时随地10G Everywhere的需求。”徐文伟强调,要实现算网融合架构,加速未来网络发展,需要产学研用共同努力才能成功,同时也要重视网络、ICT和数字人才的长期培养。华为在基础实验室建设、基础理论研究和研发等方面加大投入的同时,也希望与行业专家学者共同探讨未来。


通信世界网版权及免责声明:
1、凡本网注明“来源:通信世界全媒体”及标有原创的所有作品,版权均属于通信世界网。未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载我方内容的单位,也必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和本站来源。
2、凡本网注明“来源:XXX(非通信世界网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的,请在相关作品刊发之日起30日内进行。
发表评论请先登录
...
热点文章
    暂无内容