下一代数据中心网络测试方法分析

作者:中国电信股份有限公司北京研究院 李云鹤 思博伦通信科技(北京)有限公司 赵隽琪 责任编辑:吕萌 2019.12.02 18:31 来源:通信世界全媒体

通信世界网消息(CWW)经过10多年的飞速发展,数据中心在组网规模和系统技术上都有非常大的变化。随着5G商用的到来,下一代数据中心的承载将从移动互联网应用转向智能计算和垂直行业应用,由高性能计算、分布式存储、边缘计算等新技术为驱动,发展下一代数据中心网络技术。

数据中心的演进路线

整体来看,下一代数据中心网络朝着更高容量、网络可扩展、无损网络等趋势发展。

首先,更高带宽和更低时延要求,对应高密度设备和接口速率的升级换代。

在接口速率上,当前数据中心已经完成10G/40G到25G/100G体系的升级,下一步将朝着100G接入、400G汇聚/核心交换机端口容量演进。业界比较看好400G QSDP-DD接口,但目前其在数据中心的部署进度远远落后于预期,主要受51.2T交换芯片欠缺、光模块不成熟、成本过高等因素影响,还需推动产业链的不断成熟。

其次,基于VxLAN/EVPN的Overlay网络在数据中心趋于成熟,得到广泛的部署,很好地满足了多租户云数据中心的需求。但当前VxLAN/EVPN架构依赖于通用标准和商业芯片,网络设备复杂度较高,可定制性不佳,不能完全满足上层业务的多样化需求。下一代数据中心将更加注重网络简化和弹性扩展。

最后,随着人工智能等新兴信息技术规模承载在数据中心,高性能计算、分布式存储等业务的发展催生了RDMA技术在数据中心的广泛部署。RDMA通过网络把信息直接传入计算机的存储区,很大程度上改进了网络传输中服务器端数据处理产生的CPU高负荷、延迟大的问题。

数据中心网络技术飞速发展,测试方法和内容也要与时俱进。结合智能计算和新兴业务应用对数据中心网络的测试研究进展,可从性能测试、Overlay网络测试以及无损网络测试等方面探索下一代数据中心测试方法。

通用高密度交换机测试在数据中心典型Spine-Leaf组网架构的设计中,Leaf交换机通常采用48端口的盒式交换机。Spine交换机有盒式和插卡机架式两种设备形态,盒式交换机通常为128端口,插卡式线卡的密度以每槽位48×100G为主,未来演进到32×400G或者36×400G。基于设备端口容量演进的需求,测试床应考虑端口速率覆盖25G、100G(NRZ)、50G(PAM4)、100G(PAM4)、200G和400G以太网接口,同时具备基于NRZ和PAM4两种编码的以太网速率接口共存和互通测试的能力,在同种编码的速率接口和不同编码的速率接口之间均应具备较高的测试精度。

基准性能测试是数据中心交换机最基本的测试项目。IETF形成了一系列测试标准,定义了基准性能测试方法。系列标准包括RFC 1242/2544、RFC 2432/2889、RFC 2432/3918。

除了这些基础的测试标准,IETF还根据数据中心交换机的特点和发展趋势,定义了专门的数据中心交换机基准性能测试标准:RFC 8238和RFC 8239,能够更加有效地评估数据中心交换机的基准性能。

对于业务测试,目前在测试拓扑、测试帧长、测试指标和叠加综合测试等方面有如下考虑。

在测试拓扑方面,目前有三种典型测试拓扑结构:点对点、Backbone和Full-mesh,其拓扑结构如图1所示。点对点流量拓扑过于简单,无法对被测设备构成足够压力,仅用于功能测试。在性能测试中,需要采用Backbone和Full-mesh流量拓扑。RFC8239要求在数据中心性能测试中,被测设备的所有端口都和测试仪表相连,进行全负荷测试。盒式交换机可以在所有端口间做Full-mesh流量测试。机架式插卡交换机,每一种形态的线卡需要配置两块,两块线卡上所有端口都和测试仪表相连,两块线卡间进行跨背板的Backbone流量测试。

图1  点对点、Backbone和Full-mesh拓扑结构

在测试帧长方面,基准性能测试标准定义的是固定帧长的测试。一般来说,设备对大帧的转发性能优于小帧。但现网中有各种帧长,所以有了Internet混合帧长(IMIX)的概念。IMIX帧长容易产生微突发,符合现网情况。在IMIX模型中,需要根据数据中心实际采集的不同帧长流量的分布,定义不同帧长帧和随机帧长帧的比例关系。传统的以太网帧最大帧长是1518字节,而随着数据中心FCoE、VxLAN等协议的引入,1518字节的局限早已被突破,所以在混合帧长模型应该包括9000字节甚至更长的数据帧。

在关键指标方面,传统测试的主要指标是丢包率,反映网络的带宽。而对于数据中心承载的业务,其他指标要求更为严格,比如高频交易的超低时延,高清视频的抖动、乱序等指标。在数据中心交换机测试中,根据目标承载应用,还需要进一步关注时延(尤其是平均时延和最大时延)、抖动、乱序等指标值。

在叠加业务方面,交换机的性能需要综合数据平面和控制平面的性能和稳定性。在有效的测试床中,测试仪表仿真L2/L3协议,同时建立MAC表项,L3转发表项。数据平面测试在控制平面之上捆绑流量,同时叠加二三层、单播和组播等综合业务,业务配比参考现网流量和业务类型。另外,叠加业务还应该包括攻击等异常/非法业务和震荡等异常网络行为,测试交换机设备的长时间运行稳定性。叠加业务示意图见图2。

图2  多业务叠加

Overlay网络测试目前数据中心广泛采用VxLAN/EVPN技术构建的Overlay网络,满足双活、虚机迁移、多租户等云网络特性。虽然当前仍有很多新数据中心网络架构的讨论,比如把Segment Routing引入数据中心网络等,但主流架构还是VxLAN/EVPN的分布式网关架构,这也是数据中心网络的测试重点。

分布式VxLAN Overlay测试床需要包含Leaf交换机和核心交换机,由以下部分组成:交换机启动IRB,实现同一租户同一子网间的通信和同一租户不同子网间的通信,同时实现不同租户的隔离。测试仪表进行流量验证L2转发、L3转发和异租户隔离;测试仪表模拟规模的Leaf节点,通过核心交换机作为BGP-RR和Leaf交换机组网测试、测试仪表模拟的Leaf节点。分布式网关同样启动IRB,和被测Leaf交换机一同完成L2转发、L3转发和异租户隔离测试。

数据中心无损网络测试高性能计算、分布式存储等业务通过RoCEv2在数据中心以太网络上传输,要求提供零丢包、超低时延的承载环境。任何丢包都会严重降低应用的性能。数据中心Spine-Leaf架构,在多对一和多对多环境下容易产生微突发,导致时延增加,甚至丢包,所以在物理网络上需要一些技术手段来保障无损。

一是流量控制技术(PFC)。PFC允许在一条以太网链路上创建8个虚拟通道,并为每条虚拟通道指定一个IEEE 802.1P优先等级,允许单独暂停和重启其中任意一条虚拟通道,同时允许其它虚拟通道的流量无中断通过。

二是显式拥塞通知(ECN)。RoCEv2流量出现了拥塞,网络设备在数据包的IP头部对ECN域进行标记。当被ECN标记过的数据包到达它们原本要到达的目的地时,拥塞通知就会被反馈给源节点,源节点再通过对有问题的QP进行网络数据包的速率限制来回应拥塞通知。

三是负载均衡。与传统的负载均衡技术相比,RoCEv2要求负载均衡技术粒度更细,并且能够感知网络拥塞状态,自适应调整。

在数据中心无损网络的测试中,单台设备的测试无法反映整体网络性能,所以测试对象更多是一个网络。在测试床中,被测系统需要调整参数,确保ECN和PFC联动机制,降低拥塞。整体上反应的关键性能指标包括RoCEv2业务的整体带宽、业务时延和抖动等。

理想的测试床是一个POD。当前的测试床基本上是通过真实服务器搭建,在测试验证上存在一定局限性。无损网络测试需要商业测试仪器尽快提供基于无损网络的RoCEv2的仿真功能来降低测试成本,扩展测试规模,提高测试效率和有效性。


通信世界网版权及免责声明:
1、凡本网注明“来源:通信世界全媒体”及标有原创的所有作品,版权均属于通信世界网。未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载我方内容的单位,也必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和本站来源。
2、凡本网注明“来源:XXX(非通信世界网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的,请在相关作品刊发之日起30日内进行。
发表评论请先登录
...
热点文章
    暂无内容