通信世界网消息(CWW)在互联网发展早期,网络用户数量少,用户业务负载类型相对单一,数据中心资源配置基本上能够满足当时的业务需求,资源供给与需求的矛盾还没有凸显。近年来,随着网络带宽的不断提升以及云计算、人工智能、AR/VR等新兴技术的快速发展,全球数据量呈现爆炸式增长态势,数据中心每天需要处理大量的访问接入和计算任务。与此同时,各类新兴的网络应用对数据中心计算、存储及网络资源的需求也表现出很大差异,通用数据中心往往难以为差异化资源需求提供最佳的资源供给方案,这使得数据中心软硬件设施资源被极大浪费。
当前,数据中心应用环境、负载类型及能效政策要求的变化,使得数据中心软硬件资源供给与业务需求之间的矛盾日益凸显,传统粗放式的资源配置及管理方式难以应对差异化的应用需求。数据中心软硬件资源整合将有助于提升数据中心资源管理水平,实现数据中心资源的按需调度和精细化管理,有效提高数据中心资源利用率,并且降低数据中心整体能耗。
数据中心基本架构及资源整合数据中心基本架构数据中心架构模型如图1所示,按照从底层到高层的顺序,数据中心基本架构可以划分为5个层级,分别是L0建筑层、L1基础设施层、L2 IT设备层、L3软件层、L4管理层。其中,建筑层是指数据中心的建筑主体,主要包括楼宇、安保、照明和防火等配套辅助性设施。基础设施层主要包括供配电系统和制冷系统,供配电系统和制冷系统是维持IT设备正常稳定运行的关键。IT设备层是用户负载运行的载体,是数据中心对外提供计算、存储及网络算力服务的关键。软件层主要包括对IT硬件资源进行管理调度的操作系统和处理用户负载的应用软件。管理层主要由数据中心资源及能源管理系统组成,能够对数据中心内各类软硬件资源进行综合管理调度。
在数据中心五层架构模型中,建筑层、基础设施层和IT设备层均可以被认为是硬件资源,软件层和管理层则可以被认为是软件资源。
图1 数据中心架构模型
数据中心软硬件资源整合的概念及优势传统数据中心资源管理方式没有充分考虑到各层级资源利用的相互影响,同时也无法根据上层负载资源需求对底层硬件资源配置及调度进行优化,数据中心资源管理效果较差。与传统数据中心资源管理方式不同,数据中心软硬件资源整合管理更加强调一体化和精细化,在资源整合过程中,充分考虑上层应用环境、服务质量及业务负载的资源需求,在此基础上,对数据中心内的软硬件资源进行优化设计、部署、调度及综合管理,实现整体资源的集约化利用,提升数据中心资源利用率及对外服务水平,降低数据中心整体能耗。
硬件资源整合策略硬件按需定制不同业务应用对数据中心算力资源的需求有明显差异,传统通用型服务器在计算、内存、存储、IO及网络性能方面表现均衡。随着数据量的提升及用户服务等级协议要求的提升,通用型服务器在处理某一类型负载时性能表现难以进一步提升,例如通用型服务器在处理AI业务负载时,性能表现会低于专用的AI服务器。除了AI服务器外,近年来数据中心产业界正在加强对定制化服务器的研发投入,现有的定制化服务器包括web服务器、计算虚拟化服务器、分布式存储服务器、冷数据存储服务器等。
定制服务器能够根据业务负载实际的资源需求,改变服务器内部芯片、内存、存储、IO和网卡等零部件配置,提升服务器资源供给与业务负载需求的匹配性,从硬件底层上做到资源的精细化供给。为了进一步强化资源整合效果,数据中心还可以在网络、存储、供配电、制冷等设备方面进行定制化尝试。
资源池按需调度数据中心资源池的构建将有效提升资源调度的灵活性,根据业务负载的资源需求配置相应的硬件资源,同时还能够根据负载变化对资源进行调度迁移。按照资源类型分类,可将数据中心资源池分为计算资源池、存储资源池、网络资源池,资源池在构建过程中需重点考虑资源池与云管理平台的集成、资源池弹性拓展、分级管理以及对底层硬件的兼容管理等技术应用。
在IT设备资源池化技术的基础上,供配电及制冷系统资源池概念也被提出,数据中心供配电及制冷资源池的构建往往需要依赖基础设施资源调度软件模块或专门的集群设施,基础设施资源调度软件模块能够根据数据中心IT设备电能使用情况、机房温度及服务器温度等情况动态调节UPS供配电系统及空调系统。目前,可动态调节的电源及空调产品已经得到应用,能够满足基础设施的池化管理要求。
基于运营目标优化资源配置数据中心运营目标的确定与服务等级协议、盈利目标及成本等因素有关,其中服务等级协议是根本,数据中心应该确保服务质量满足协议要求,因为延迟、错误等原因造成违例可能会使用户经营活动蒙受巨大损失,同时也会降低用户对数据中心服务的满意度。
数据中心运维管理人员应该明确运营管理的目标,在服务性能和资源供给之间寻求平衡,在满足服务等级协议的基础上,提供合适的硬件资源,这不仅有助于提升软硬件资源利用率,同时还能够有效降低数据中心整体能耗。
资源异常诊断、隔离及修复机制异常设备不仅会降低数据中心对外服务能力,也会造成不必要的能耗,数据中心资源异常诊断机制能够帮助运维管理人员快速掌握异常资源使用情况。该诊断机制可以从资源使用率和电能使用情况等角度构建,通过监控各类设备资源及电能的使用情况建立预测模型,当异常情况发生时,系统就可以快速锁定异常设备。
在发现异常设备后,数据中心还需要对异常设备进行隔离及诊断,防止异常设备对其他正常设备的干扰,通过异常诊断判断当前设备的具体故障,运维管理人员可以在诊断基础上对异常设备进行修复或报废处理。资源异常诊断、隔离及修复机制的建立,能够有效防止异常资源对数据中心整体性能和能耗的影响。
软件资源整合策略操作系统跨平台软件层主要由操作系统及应用软件构成,操作系统在一些IT设备(如服务器、存储设备、交换机及路由器)上都有分布,空调设备及一些智能化的供配电设施往往也会部署相应的嵌入式操作系统,操作系统能够实现对设备上硬件资源的直接管理。目前,服务器操作系统基本上已经开放,操作系统在部署和安装过程中不需要考虑服务器底层硬件的差异性,数据中心能够根据需要将Linux或Windows操作系统部署于x86平台、ARM平台和Power等平台上。
在通信设备方面,华为、中兴、思科、惠普等国内外知名通信设备制造商的产品往往会部署各自研发的操作系统。交换机等通信软硬件设备并没有与操作系统解耦,数据中心无法按照实际网络需求对这些交换机进行配置,所以数据中心组网成本较高。
随着SDN网络的兴起,白盒交换机开始出现,白盒交换机能够实现交换机硬件与操作系统解耦,数据中心能够按照自己的需求配置操作系统软件。为了适应市场需求,普惠和戴尔等传统网络设备厂商也开始进行白盒交换机的制造,可以预见,在未来一段时间里,白盒交换机+开源操作系统模式将成为通信设备领域重要的发展模式之一。
操作系统的跨平台性能够有效提升系统部署效率,进一步实现操作系统的按需定制,数据中心运维管理人员对各类硬件设备的管控水平将进一步增强。
应用软件跨平台在分布式计算环境中,用户数据可能被分发到不同的服务器上,而这些服务器的硬件及操作系统不尽相同,在这种情况下,应用软件的执行效果可能存在差异。数据中心应用软件的跨平台性要求应用软件在不同的操作系统(尤其是Linux和Windows系统)上执行时,具有相同的结果输出,这要求软件开发人员在开发过程中充分考虑应用程序在不同操作平台上的运行状况,设计出能够兼容各类操作系统的应用软件,应用软件部署后,还需要对不同操作平台上的运行结果进行测试。
数据中心软硬件资源全局整合策略数据中心软硬件资源全局整合管理要求运维管理人员能够从整体上对数据中心基础设施、IT设备、操作系统及应用软件进行一体化管理。对于尚在建设的数据中心,应充分考虑未来业务特点、网络通信环境及节能目标,对数据中心基础设施、IT设备进行定制,根据外部需求部署相应的软件及硬件,这种方式有助于从根本上提升数据中心软硬件资源利用率。对于已经建成的数据中心,则可以通过相应的资源管理系统对各类硬件资源进行调度管理。同时,也可以根据实际情况对现有软硬件设备进行升级改造,使其具备良好的可管理性。
数据中心软硬件资源一体化管理平台的核心是资源池化技术,资源池化技术提升了各类资源的利用率,但是如果无法对资源池中的资源进行合理调度,这些资源可能依然会被浪费。因此,构建专业的资源池管理平台对数据中心资源池进行整体管理显得尤为必要。在当前数据爆炸式增长的时代,数据中心主要是以“云”的形式为外部企业和用户提供服务,因此数据中心软硬件资源一体化管理平台的构建与云计算资源池管理平台的构建具有一致性,数据中心软硬件资源一体化管理平台在构建过程中可对现有云计算资源池管理平台进行功能拓展。常见的云计算管理平台软件框架主要包括1000islands、OpenStack、Eucalyptus和CloudStack等,其中OpenStack云计算管理平台能够对计算、存储、网络资源池进行统一调度管理,在数据中心资源池管理方面应用广泛。
除了具备资源池管理功能外,数据中心软硬件资源一体化管理平台还能够进一步与数据挖掘、深度学习等人工智能技术结合,实现整个数据中心资源的动态感知和按需调用。具体来看,数据中心可以利用监控设备、传感器等实现对软硬件设备及内外部环境的感知。随后,软硬件资源一体化管理平台根据状态感知的结果进行智能决策,决策过程中充分利用建模分析和人工策略输入相结合的方式。通过智能决策实现数据中心任务调度及负载均衡等目标,任务及负载调度目标应与数据中心运营目标一致,并有助于更好地提升数据中心各项资源的利用率。
数据中心软硬件资源整合策略是一种全局性的资源管理理念,包括硬件按需定制、资源池按需调度、基于运营目标优化资源配置,以及资源异常诊断、隔离及修复机制。数据中心软件资源整合策略主要是要求操作系统及应用软件具备跨平台性能。为实现软硬件资源全局性精细化管理,需要构建基于云计算的软硬件一体化资源管理平台,对各类资源池进行调度管理,更好地实现资源按需分配和调度。