算力调度关键问题和实施路径研究

作者:中国信息通信研究院云计算与大数据研究所 于美泽 谢丽娜 江畅 责任编辑:包建羽 2023.06.09 14:31 来源:《信息通信技术与政策》2023年 第5期

摘要:随着“东数西算”工程的纵深推进,如何提升跨区域算力调度水平、提供高质量算力服务已成为算力领域的重要研究方向。着眼于算力网络中的算力调度问题,重点阐述了算力调度的体系架构及关键技术,并分别从整合算力资源、搭建调度平台、建立标准规范体系三个方面介绍了实现算力调度的整体实施路径。

关键词:算力调度;算力网络;算网编排;算力交易

0  引言

随着5G、人工智能、大数据等新技术、新业态、新平台的蓬勃兴起,自动驾驶、人脸识别、智能制造等各类新兴业务对算力提出了灵活便捷、按需匹配的新要求。另外,“东数西算”工程在开启我国算力资源全国范围统筹布局新篇章的同时也提出了实现算力资源跨区域调度的核心挑战。算力调度通过智能分配策略实现算力的灵活流动,能够解决我国算力需求与资源分布不均的矛盾,快速满足上层应用多样化的算力需求,助推我国数字经济进入普惠共享的新阶段。

1  我国算力调度的发展探索

1.1  算力调度的部署要求

我国高度重视算力产业发展,为优化算力资源供给,提升整体算力服务水平,已发布多项有关算力调度的政策文件。《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》明确指出,要“加快构建全国一体化大数据中心体系,强化算力统筹智能调度”[1]。《新型数据中心发展三年行动计划(2021—2023年)》明确要形成布局合理、技术先进、绿色低碳、算力规模与数字经济增长相适应的新型数据中心发展格局,同时指出要完善公共算力资源供给,优化算力服务体系,提升算力服务调度能力[2]。《“十四五”信息通信行业发展规划》指出,要提高网络资源智能化调度能力和资源利用效能,并首次明确提出了加强跨地域、跨行业统筹协调的重点任务[3]。2022年2月,国家全面启动“东数西算”工程,建设京津冀、长三角、粤港澳大湾区、成渝、内蒙古、贵州、甘肃、宁夏八大全国一体化算力网络国家枢纽节点,同时规划了十个国家数据中心集群[4]。打通东西部算力资源、实现东西部算力协同,离不开区域间的灵活调度。

1.2  算力网络发展探索

在国家政策与产业需求的双重驱动下,作为算力网络建设的中坚力量,国内三大运营商纷纷加大对算力网络相关的技术研发投入和发展路径探索。中国移动通信集团有限公司在2018年就开始了关于算力感知网络(Computing-Aware Networking,CAN)的研究,基于CAN的概念,从度量、协议、架构等不同层面协同演进,构建面向算网一体化的新型基础网络,目前已经完成了多个移动边缘计算站点的CAN部署,验证了CAN调度系统既能实现最优的系统资源利用率,又能实现最佳的用户体验[5]。2020年,中国联合网络通信集团有限公司研究院发布了《算力网络架构与技术体系白皮书》,基于云网融合领域的不断发展,制定了集算网控制、编排、管理、转发等功能于一体的算力网络体系架构,该架构能够最大限度兼容目前发展中的软件定义网络(Software-Defined Networking,SDN)和网络功能虚拟化(Network Function Virtualization,NFV)技术路线,同时实现算力资源提供方、服务提供方及业务消费方不同角色的个性化服务[6]。中国电信集团有限公司遵循“网是基础,云为核心,网随云动,云网一体”的十六字原则,提出云网融合目标技术架构。该架构引入云原生、安全、人工智能(Artificial Intelligence,AI)和大数据等技术要素,通过基础设施层、云网大脑、云网操作系统和应用平台实现云网边端智能协同、各类资源融合调度的发展愿景[7]。算力网络的发展目标是将算力打造成为随用随取的公共服务,算力调度作为算力网络发展的关键技术,是解决我国东西部算力结构不均衡、算力供需不平衡、算网协同性不强等问题的重要途径,因此,笔者将对算力调度涉及的关键技术以及整体实施路径作扼要的介绍和讨论。

2  算力调度体系架构

算力调度是解决算力供需矛盾、算力网络传输问题、算力资源普惠问题的新型能力体系。算力调度根据算力资源提供方的供给能力和应用需求方的动态资源需求,整合区域内算力基础设施底层的计算、存储、网络等多维资源,基于算力调度平台对算力资源进行一致性管理、一体化编排和统一调度,实现跨行业、跨地区、跨层级的算力资源的协同联动与精准匹配。算力调度涉及的关键环节从底层到上层主要有基础设施层、管理编排层、服务运营层、算力应用层,另外还包括标准规范体系,如图1所示。

640 (1).png

图1   算力调度涉及的关键环节

基础设施层:奠定算力调度基础能力的重要底座。该层利用现有的算力基础设施、通信网络基础设施提供算力资源,充分聚合计算、存储、网络三大资源,向算力调度平台提供池化资源能力;融合算力和网络等方面的创新技术,例如异构计算、算力卸载、存算一体以及光传送网(Optical Transport Network,OTN)等技术,以提供多元资源服务和实现最佳网络连接。

管理编排层:实现算力调度的“算网大脑”。该层负责全网算力资源的统一管控和智能编排。该层主要基于对全网算力资源的全面感知,利用算力解构技术解耦底层算力资源与上层业务需求之间的逻辑关系,进而通过博弈算法和智能优化算法选择最优的调度路径,同时根据算力资源的实时变化进行动态算力调整,实现整体算力资源的灵活部署与动态匹配。

服务运营层:对接算力资源提供方与资源应用需求方的重要“中间管家”,管理算力服务的运营过程。该层主要提供算力注册、身份认证、服务申请、产品定义、服务计费和服务结算等算力交易相关的场景,基于区块链等去中心化技术实现分布式账本、匿名交易、订单溯源,为客户提供云、算、网资源随用随取、便捷高效、安全可信的一站式服务。

算力应用层:向各行业多重应用场景释放多样化算力服务。该层面向个人客户、企业客户、政府客户等不同群体不同场景的算力业务需求,为金融科技、人工智能、智能制造、生物医药、科创研发、智慧城市等领域的实际需求提供算力服务,例如数据分析、状态推理、视频解析、模型训练、路径规划、图像渲染等。通过算力服务在不同领域的流通共享,推动算力资源与业务场景的深度融合以及算力调度在横向和垂直领域的拓展与延伸。

标准规范体系:实现算力服务有序发展的重要保障。该体系主要包括算力评估标准建设、绿色技术应用保障、商业模式运行机制、算力安全防护保障等。统一的算力调度标准规范体系一方面能够为算力服务的高效发展提供安全可靠的机制保障;另一方面,能够屏蔽厂商和地域差异,强化产业链各方整体协同,形成算力网络强大的生态合力,为千行百业提供“开放、融合、绿色、安全、普惠”的算力服务。

3  算力调度关键技术

3.1  算力感知

算力感知是实现算力调度的基础,通过感知全网的算力资源信息,保证按需、实时调度不同位置的算力资源。算力感知既包括对算力提供方的计算、存储、通信、服务等不同类型资源与服务的感知,也包括对算力需求方业务需求信息的全面感知。无处不在的网络连接分布式算力节点是实现算力感知的关键,算力节点能够主动将感知到的算力特性(如中央处理器(Central Processing Unit,CPU)/图形处理器(Graphics Processing Unit,GPU)的处理能力、负载信息、部署位置等)、算力服务信息(如服务类型、服务时长等)、网络指标(如时延、流量、丢包等)等要素上报至算力感知中心,反之,算力感知中心也能主动查询算力节点的各类性能[8]。由于算力资源是动态变化的,因此算力感知中心还需要测量不同算力节点间的时延和路径信息,以便于对算力资源的调配进行实时处理。未来,可以依托AI技术,利用AI流量预测模型结合AI深度神经算法学习算力应用状态,及时预测算力节点资源信息的变化情况,从而提升全网的资源配置速度和利用效率[9]。

3.2  算力度量

统一的算力度量标准是实现灵活调度多元异构算力资源的前提,但算力与水力、电力等能源不同,算力资源的复杂性决定了难以通过单一维度来量化算力,算力资源的复杂性主要体现在三个方面。第一,由CPU、GPU、现场可编程逻辑门阵列(Field Programmable Gate Array,FPGA)、专用集成电路(Application Specific Integrated Circuit,ASIC)等多种计算单元组成的异构处理体系难以进行标准化的统一;第二,除了计算单元,算力资源还包括网络、存储等多维资源,需要从多个维度进行算力资源的建模和评估;第三,不同行业、不同企业、不同场景对算力资源类型和需求量的要求存在较大差异,用户很难精准把握需要多少算力[10]。因此,业界亟需建立统一的标准将算力业务需求量化以提供更好的服务。确定算力资源模型是建立算力度量标准的关键。主流的思路是从业务场景维度出发,将总体的算力资源统一表达为包含计算、网络、存储等多维度资源在内的综合模型。首先将通用算力、智能算力和超算算力三种不同的计算类型按照逻辑运算能力、并行计算能力、神经计算能力的维度进行分类,将计算能力表达为匹配不同比例系数的三种计算能力之和,即:

1686292519413098847.png

公式(1)中,Ø表示计算能力;A表示逻辑运算能力;B表示并行计算能力;C表示神经网络计算能力;α,β,γ表示比例系数。

进而用与计算能力、存力、算法、路由和算效相关的数学模型来表示总的算力资源。总的算力资源可如下表示:公式(2)中,φ表示算力资源;Ø表示计算能力;T表示存力;X表示算法,包括算法类型和复杂度等;P表示路由,包含路由协议、协议配置等信息;θ表示算效,用于算力配置策略验证。

最终基于以上模型,结合用户位置、业务需求等关键信息,对外生成面向用户的算力资源视图,对内生成算力资源清单和初始配置策略[11]。

3.3  算力路由

算力路由将算力节点收集的算力资源信息进行整合,生成包含网络和计算参数信息的新型路由表,从用户的实际业务需求出发,进行算力任务动态匹配和连接调度,实现用户体验最优、计算资源利用率最优、网络效率最优、调度路径最优。现有的路由部署策略以集中式为主,将调度问题视作一个整体,基于SDN和NFV网络控制器将调度信息统一呈现给用户,但集中式解决方案已无法满足新型应用实时性的需求。计算优先网络作为一种分布式路由协议,将算力节点的计算状况和网络状况作为路由信息发布到网络,网络基于虚拟的服务身份识别号(Identity Document,ID)将计算任务报文路由到最合适的计算节点。在算力资源多样性的网络中,基于算力和算法动态调度计算资源,精确地完成算力调度,保证优质的用户体验[10]。

3.4  算网编排

算网编排是算网大脑的核心控制部分,算网编排技术基于算、网、数的原子能力按需灵活组合,完成复杂多元的算力业务的路径编排,并通过网络控制器进行算力路由选择与转发,实现算网业务的统一编排、部署和保障。算网编排具备云原生编排能力、多量纲的编排能力以及运行态的编排能力[10]。云原生编排指应用程序无需进行复杂的适配性改造,由算网大脑提供通用性编排框架,实现应用程序的自动、灵活、敏捷部署及扩缩容编排。多量纲的编排指通过多属性决策算法,对算网资源中的成本、安全、能耗等多量纲进行实时业务编排,为用户编排多种解决方案。运行态编排指根据算网资源实时状态变化,由动态编排引擎根据业务特性进行动态拼装,形成新的流程模板最终交回业务调度引擎,实现流程的动态调度和运行。未来,可在现有的编排技术基础上利用人工智能技术,通过机器学习实现对历史运行数据的学习和分析,进一步丰富调度策略、校正调度精度。

3.5  算力交易

算力交易是指算力提供方与算力需求方通过算力交易平台进行资源交易的新型商业模式。算力交易平台作为算力买方与卖方的中间角色,基于“身份、协议、订单、账单、佣金”等方面的可信交易体系,根据用户的差异化需求,实现智能、公平、泛在、可溯、可信的算力交易。但由于算力资源种类繁多且由多方共建,总体呈现多维异构、多级泛在、归属复杂的特点,想要实现高效的算力交易需要解决算力并网问题、算力感知问题、多方交易公平问题、多方算网激励问题、可信算力交易问题五大问题[8]。需要从算效、时延、绿碳、安全等多维度分类分级制定算力产品价格体系,基于多维感知精准解析实际业务需求并通过优化算法匹配出最合适的算力供给方。此外,可以利用去中心化的分布式、可信区块链技术,实现对多方闲散算力资源的整合以及统一运营管理。

4  算力调度实施路径

4.1  整合多元异构资源

针对算力资源多元化、异构化的特点,首先需要统一底层算力资源度量标准,对衡量计算能力的CPU、GPU、神经网络处理器等异构处理单元进行标准化的统一,构建对于计算、存储、网络等不同类型算力资源的度量模型,同时需要综合考虑安全、成本、能效等服务指标,形成统一的上层应用资源评估标准,以满足不同应用场景的适配要求。在此基础上,摸清算力调度区域已建和在建的算力基础设施及算力资源输出能力,形成区域算力资源清单。将归属不同所有方的闲置资源整合起来,基于云计算技术屏蔽底层异构算力的差异性,为上层应用提供无差别的服务能力[12]。

4.2  搭建算力调度平台

算力调度平台集实时感知、供需匹配、智能调度、服务运营、监测管理等多种功能于一体,是实现算力资源灵活流通的重要“关口”,算力平台的搭建重点包括两个方面:一是基于算力感知、算网编排、算力路由等技术构建算网大脑,针对算力业务需求,根据全域实时的算、网、数资源以及云、边、端分布情况,灵活、动态地计算最优协同策略与调度路径,实现算力资源跨行业、跨区域、跨层级的融合编排;二是引入区块链等技术构建算力运营门户,为算力资源提供方和算力资源需求方搭建交易服务的桥梁,实现算力服务统一交易和售卖,与算网大脑协同,打通算力交易全生命周期各环节,满足算力交易多方参与者的业务需求,提供算力产品一体化供给和一站式服务。

4.3  建立标准规范体系

算力调度的标准规范体系是实现算力服务有序发展的基础保障,重点包括算力交易、算力管理、算力安全等方面的规则机制。算力交易主要涉及产品定价规则、自动结算机制、算力交易账本、交易各方的权利和义务以及可信、可溯、可评价的算力服务机制,需探索新的算力业务形态下全新的算力商业体制。算力管理涉及多方闲散算力接入、合作分成、业务订单管理、服务进度管理以及服务运维等方面的规则。算力安全主要涉及多源、泛在的算力节点进行计算时所面临的网络攻击和数据隐私泄露等安全风险,以及算力交易参与方面临的信息泄露隐患等,需建立安全可控的信息网络软硬件系统安全保障体系,实现智能化的威胁预警、风险分析、自动处理等功能,全力提升信息网络安全监测预警能力和应急处置水平。算力调度标准规范体系的构建需要算力提供方、需求方和产业上下游协同合作,共同开展算力纳管、交易、安全等多方面的标准研究与规则制定,促进算力调度的良性发展。

5  结束语

尽管目前在算力调度技术思想、系统开发、案例应用等方面已经取得了一定进展,但算力调度仍然面临诸多挑战,如异构算力的度量问题、算力服务的商业模式问题、标准化体系建设问题。想要攻克此类问题需要从三个方面入手。一是加快标准体系建设。业界研究机构、标准组织与算力相关企业应加快产学研深度融合,一方面,加快建立统一的描述语言,实现业界认可的算力度量标准;另一方面,探索建立能够平衡算力提供方、算力需求方、调度平台运营方等各方需求的商业创新模式,推动算力市场的规范化发展。二是强化政策支撑。算力调度涉及领域复杂繁多,亟需统一发展路线,形成行业共识;同时,要加大对于产业创新平台与重大应用示范在资金、人才等方面的支持力度,充分调动市场积极性。三是完善产业生态。以建促用,鼓励软硬件厂商开展跨层合作,提供满足不同场景的解决方案,通过算力产业上下游的协同联动打造全产业、多行业共创、共享、共赢的算力生态。

通信世界网版权及免责声明:
1、凡本网注明“来源:通信世界全媒体”及标有原创的所有作品,版权均属于通信世界网。未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载我方内容的单位,也必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和本站来源。
2、凡本网注明“来源:XXX(非通信世界网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的,请在相关作品刊发之日起30日内进行。
发表评论请先登录
...
热点文章
    暂无内容