通信世界网消息(CWW)在全国一体化大数据中心建设指引下,“东数西算”示范工程已经被提上日程,正在有序推进中,而在这一过程中,将有海量数据在东西部之间流通,因此网络连接将起到非常重要的作用。在不断优化现有网络架构与运营的同时,以算力网络技术、确定性网络技术、超融合数据中心网络技术等为代表的新兴网络技术正在不断发展中,推动网络满足新兴业务需求,这将有效支撑东西部算力协同,实现国家整体战略布局。
为实现“新基建”的整体发展目标,推动各行业数字化转型升级,国家发改委、中央网信办、工业和信息化部、国家能源局等四部委联合在2020年12月与2021年5月先后发布了《关于加快构建全国一体化大数据中心协同创新体系的指导意见》和《全国一体化大数据中心协同创新体系算力枢纽实施方案》两份文件,明确指出将推动构建全国一体化大数据中心体系,采用多举措引导数据中心优化布局,促进数据要素流通应用,开展“东数西算”示范工程,强化算力统筹调度,深化东西部算力协同,解决我国东部地区算力资源紧张与西部地区算力需求不足的不平衡状况。
另一方面,根据2021年戴尔科技联合国际数据公司(IDC)最新发布研究报告《未来算力推动企业迈向数字化2.0》白皮书,算力作为未来基础设施的核心组成部分,是衡量数据处理能力强弱的量尺,也是支撑数字化转型和数字经济发展的基石。与此同时,算力资源的使用方式正朝着灵活部署、智能自治的方向演进,并随着企业对多云、混合云的使用越来越深入,利用边缘计算形成“云-边-端”协同的部署方式成为新的趋势。白皮书中预测,未来3年新创建的数据量将超过过去30年的总和,而未来5年创造的数据量将是此前5年的3倍以上,到2024年,全球数据总量将从现在的44.9ZB以26.0%的复合增长率达到142.6ZB。
总体而言,一体化数据中心体系建设不仅作为一项重要的国家基础设施建设任务,能够提升国家综合实力,同时也是企业数字化转型过程中必不可少的一环,能够为企业的生产经营带来巨大的收益。在建设一体化数据中心体系过程中,除了数据中心布局、算力资源结构、数据流通融合、数据安全防护等问题外,网络基础连接也是一个需要不断演进发展的部分,其中遇到的新问题并非现有网络技术所能够解决的,需要进一步研究和发展新型网络技术,推动网络向更智能、更灵活、更便捷的方向发展。
“东数西算”对网络能力进一步发展的需求
传统网络技术是面向人人、人机通信发展起来的,导致对于一些新兴业务中复杂的多层次化资源使用诉求存在一定的差距。
首先是资源弹性选择,在“东数西算”体系中,数据中心呈现多层次化的布局,资源节点分布于全国各地,且归属于不同所有制的企事业单位,因此短期内很难通过集中式的管控编排系统,将这些资源统一分配与配置优化,且运营主体也存在不确定性因素。因此网络技术发展提供了另外一种选择,即算力网络技术。在多方并存的基础上,通过扩展网络能力来整合泛在算力资源,促进算力在各方之间的流动,将算力等局部资源变为全局资源,从而提高算力资源利用效率。
其次是高效传送需求,在“东数西算”过程中,海量数据需要从东部城市传送到西部计算节点,还需要将计算结果再传回东部城市,但不同用户不同业务需求各不同,既有高带宽低成本的传送通道需求,也存在低时延、低抖动的确定性网络连接需求,因此有必要在以IP协议为基础的承载网上提供层次化的精准服务能力。
最后是超融合发展,现有数据中心内网络只负责基础的网络连接功能,并没有进一步实现计算、存储、网络等多维度资源的融合供给。目前的体系架构对于普通业务是基本能够满足要求的,但对于那些追求极致性能的业务,如高性能计算等,数据中心内的网络连接正在逐步成为新的瓶颈点。换句话说,数据中心内网络部分正在成为“木桶效应”中的短板,容易拉低整个数据中心的实际算力水平。
网络演进关键方向之一:算力网络技术
算力网络技术作为边缘计算兴起后出现的云网融合体系中一种新型网络技术,力图通过网络控制面解决多方、异构的算力资源柔性供给问题,能够让用户在发起任务时不用指定具体的算力资源节点,而由网络控制面根据资源节点实时信息与业务策略来选择最佳算力资源节点。
算力网络技术重点强调了资源与用户需求的多样性,包括资源节点的多样性(集中的大型云计算节点、分散的边缘计算节点以及无处不在的端计算节点等)、资源归属的多样性(云服务商的资源池、电信运营商的资源池、区域性供应商的资源池、行业用户自身的资源池等),以及业务需求的多样性(成本优先、时延优先、安全优先等),并利用这些多样性特征综合选择满足业务需求与成本支出的最佳资源与最优路径。
算力网络技术的关键在于扩展网络控制面能力。以分布式算力网络技术方案为例,首先通过扩展路由协议(如BGP、OSPF等),使得算力资源节点在宣告自己的路由信息,可以将算力资源信息(类型、可用量等)一并发送至对应的网络节点;其次,网络节点收到资源信息后,通过泛洪的方式将信息分发给其它节点;再次,连接用户的边缘网络节点接收到这些信息后,就可以通过路由算法计算得到以本节点为中心的资源分布情况;最后,当用户收到以其为中心的资源视图后,就能够主动或者依靠智能算法选择理想的资源节点,并计算出最优路径,从而连接上相应的资源节点。
目前算力网络技术发展迅速,备受业界的广泛关注,比如在5月召开的第五届未来网络大会上,由中国通信学会组织的“2021未来网络领先创新科技成果”评选中,中国电信的《算力网络技术创新研发及标准化》、中国移动的《算力感知网络体系架构和技术体系》、中国联通的《算网一体技术与服务体系》均位列其中,并被编入未来网络领先创新科技成果智库。
网络演进关键方向之二:端到端确定性网络技术
如果不考虑成本投入,以光传输专线为主的高品质专线/专网是能够完全满足所有业务对网络质量的最高要求,但实际上并非每位用户都能支付相对高昂的专线费用,也并不是所有的业务都需要这样好的网络连接质量。因此提供层次化的网络连接成为一种必然选择,不少研究与实践都关注在IP承载网(包括但不限于接入网、IP城域网、IP骨干网等)上提供专门的高品质通道,能够根据不同业务类型提供不同优先级的传送能力。
由于IP协议的基础是“尽力而为”的转发机制,所以始终存在微突发、毛刺等现象,不可避免出现时延的“长尾效应”,即报文传递过程中始终抖动,时延稳定性较差。而目前应用的多种QoS保障技术,主要通过预留相对足够大的带宽以避免微突发的形成,但并不能从机理上彻底消除排队与抖动,因此无法满足极致情况下的性能要求。
从另一个角度来看,端到端的确定性网络服务可以从3个维度加以描述,这些维度可以通过组合形成丰富的产品体系,从而满足多样化的业务需求。
一是带宽确定性,一般以用户能够达到的峰值带宽为衡量指标,上下行带宽限速可以一致或者不一致。
二是路径确定性,在传统IP网络中,IP报文的转发路径是根据近实时计算的路由表项确定的,由于负载均衡等机制,同一用户同一业务的前后报文可能通过不同路径到达目的地,使得时延发生变化。因此如SRv6等新型网络技术,能够以高效的方式指定路径,为用户提供不同类型的路径选择,如低时延路径、零丢包路径、高可靠性路径等。
三是时延确定性,采用新的机制获得确定性时延,即确保所有报文的传送时延被严格限制在一定范围内。例如可以在统计复用的IP报文交换机制中引入可灵活调整的时隙方案,消除因排队带来的转发抖动,使得网络连接从“大概率保证服务质量”变为“确定性保证服务质量”。
上面的3种确定性虽然对应不同的指标,但三者之间存在递进关系,比如对于最为严格的业务要求,应先需要明确用户的带宽,再为用户选择合理的路径,最后在选定的路径上设定端到端的控制方案。
目前网络各子专业都在研究相应的确定性网络技术,如在由紫金山实验室牵头发布的《未来网络白皮书:确定性网络技术体系白皮书(2021版)》中,就详细列举了当前重点研究的各项确定性网络技术,包括时间敏感网络(TSN)、灵活以太网(FlexE)、确定网(DetNet)、IP确定性网络(IP DIP)、确定性WiFi(DetWiFi)、第五代移动通信确定性网络(5GDN)等。
网络演进关键方向之三:超融合数据中心网络技术
前期数据中心的超融合技术研究主要集中在计算与存储的融合方面,很多研究都关注着如何构建灵活的模块组件,以业务需求为导向进行组合,从而取代由独立服务器、存储网络和存储阵列组成的传统基础架构。但随着分布式集群规模增大与单节点算力增长,算力的约束条件已经从服务器设备限制逐步转变为网络约束。尤其是各类人工智能算法的广泛应用,使数据中心内部各类计算单元之间传输数据量激增,数据中心的网络成为了新的瓶颈点,网络有丢包或时延较高时,就会导致数据拥堵,大幅降低高性能计算集群的整体效率,甚至出现过增加计算节点也无济于事的极端情况。有研究证明,网络发生0.1%的丢包将造成算力下降50%。同时,AWS等发布研究报告称,大型数据中心中的流量处理占到了计算的30%左右,也就是说30%的计算是在进行流量处理,这个开销就被形象地叫作数据中心税(Datacenter Tax)。
因此多维度的超融合成为新的发展方向,即改变传统网络、计算、存储相互独立的格局,利用超融合数据中心网络实现多维资源的融合,提升通信效率、降低总体任务完成时间。例如,对于计算单元可以采用去PCIE总线而直接出以太口的方式,突破总线的速率瓶颈,而对于存储单元,则可以采用大带宽以太网作为新一代存储网络,以满足从机械硬盘向全闪存升级的发展趋势。
目前业界提出了一些新的数据中心网络技术发展方向,一种方案是在交换机等网络设备上引入以RoCEv2为代表的RDMA协议,实现数据中心内网络无损化;另一种新型方案是采用DPU(数据处理单元/Data Process Unit),即利用DPU的专用处理能力分担CPU所不擅长的I/O(存储和网络)处理,同时提供针对存储和网络的虚拟化功能,如图1所示。目前Fungible、Mellanox、Nvidia、Intel等公司纷纷提出了DPU方案或者类似的解决方案。

图1 传统架构向超融合架构演进
综上所述,在“东数西算”体系构建中,网络连接作为其中的重要组成部分,在支持数据流动与算力共享方面起着至关重要的作用。随着“东数西算”不断涌现的新业务、新需求,算力网络技术、端到端确定性网络技术、超融合数据中心网络技术等一系列新型网络技术正在迅速发展中,这些新型网络技术将推动网络连接向更为弹性、高效、便捷的方向演进,从而满足全国一体化大数据中心协同创新体系的各项要求,为产业链各方带来更大的经济价值和社会价值。


