算力网络一体化服务架构与实践

作者:中国移动通信有限公司研究院 魏华 张婷婷 李莹 责任编辑:王鹤迦 2022.08.24 10:49 来源:通信世界全媒体

通信世界网消息(CWW)为了满足AR/VR、车联网等新型业务对低时延、高带宽,以及计算轻量化、动态化的需求,网络和计算融合发展已经成为新的趋势。随着芯片工艺制程、5G、云计算、边缘计算等新技术的发展,算网一体化发展逐步走向成熟,算力网络的出现实现了“云边端”三级无缝协同,从而可以具备向全社会提供“算力+网络”的一体化服务能力。

一体化服务能力包括提供算网数智等多要素融合的一体化服务和端到端的一致性质量保障。为了让用户可以随时随地的享受算力服务,发展算力网络需要重构现有计算及网络形态,使其形成继水网、电网之后国家的新型基础设施,从而最终实现“网络无所不达、算力无处不在、智能无所不及”的愿景。

本文针对算力网络中一体化服务架构、核心技术问题进行了探讨分析,为算力网络的技术发展、一体化服务部署以及未来的商业化应用提供了参考思路。

算力网络一体化服务的特征及架构

为了实现算力服务从传统简单的云网组合服务,向多要素深度融合的一体化服务转变,算力网络的服务模式需要逐渐从“资源式”向“任务式”转变,以便为用户提供智能、极简、无感的算网服务。

一体化服务的特征

算力网络核心目的是提供算、网、数、智、安、边、端、链等多要素融合的极简一体化服务。算网服务从过去用户云、网分别申请开通服务,转变为从云向算、网随算动、多要素供给的跨层次多形态的一体化服务,用户无需再关心分段、分类的能力供给及复杂的技术方案实现。算力网络一体化服务具有如下特征。

一是多要素一体供给。算力网络可实现算、网、数、智、链、安等多要素深度融合,可提供多层次叠加的一体化服务,如一项服务内可包含网络、算力、AI等能力。

二是多方多样算力融合。算力网络支持引入多方算力提供者,打造多样性新型算网服务及业务能力体系,并衍生出平台型共享经济模式,实现对社会闲散算力和泛终端设备的统一纳管。

三是智能无感极简。算力网络通过提供基于“任务式”量纲的新服务模式,可以让应用在无需感知算力和网络的前提下,实现对算力和网络等的随需使用和一键式获取,达到智能无感的极致体验。

一体化服务总体架构

为支撑算力网络一体化服务,算力网络体系架构从逻辑功能上分为算网基础设施层、编排管理层和运营服务层。其中编排管理层和运营服务层是实现算力网络一体化服务的关键能力平台,算力网络一体化服务总体架构如图1所示。

image.png

图1  算力网络一体化服务总体架构

●基础设施层

算网基础设施层是算力网络新型一体化基础设施的坚实底座,包含算网服务的基本要素。算力方面具备云边端多层次、立体泛在的分布式算力节点、资源和能力,满足中心级、边缘级和现场级的算力需求。网络方面基于全光底座和统一IP承载技术,实现云边端算力高速互联,满足数据高效、无损传输需求。使得用户可随时、随地、随需地通过无所不在的网络接入无处不在的算力,享受算力网络的极致服务。

●编排管理层

编排管理层是算力网络的调度中枢,包含智慧内生的“算网大脑”和控制器“算网手脚”。编排管理层是呈上启下支撑一体化服务的核心,主要包含算网统一编排、基于数据湖和人工智能引擎的智能化模块支持,统一编排向上支持算网能力的统一开放,向下通过各类控制器与基础设施各要素协同联动。算网统一编排模块具备两层核心能力:一方面通过横向编排,实现算网产品部署包管理、设计服务的AI等模型仓库管理、编排策略设计,将算力业务请求进行任务拆解和服务解构,实现服务的一体编排。另一方面通过纵向调度,将算、网等能力统一建模度量和抽象,封装成可调度的原子能力,综合业务需求和资源匹配进行调度策略管理。

●运营服务层

运营服务层是算力网络的服务和能力提供平台,通过将算网原子化能力封装并融合多种要素,实现算力量纲产品的一体化服务供给,使用户享受便捷的一站式服务和智能无感的体验。如图2所示,一体化服务需要通过算力并网吸纳社会多方算力,结合区块链等技术构建可信算网服务统一平台,提供“算力电商”等新模式,打造新型算网服务及业务能力体系。

面向一体化服务的关键技术分析

image.png

图2  一体化服务关键技术

通过“算网大脑”的“编排-调度-控制”可以实现从一体化服务模型到算网资源模型的统一管理。利用算力并网技术可以实现算网资源的统一运营,进而构建全网的算网资源模型;通过算力抽象技术实现对底层异构算网资源的屏蔽,从而提供一体化服务;利用算力解构技术实现对“任务式”服务及应用的分解,进而可以通过泛在调度实现子任务的灵活部署及动态调度。

算力抽象

算力抽象需要屏蔽用户在开发流程中对底层硬件设施的感知,建立一套支持多种异构硬件开发的开发框架模型。算力抽象为用户提供一套统一的开发平台,对上统一编程标准,对下屏蔽底层硬件差异,从而实现一套代码跨硬件架构的开发、编译,实现用户开发无感,程序灵活迁移。

在算力网络的场景下,算力被抽象为一种类似电力的资源向用户提供,用户在使用算力时,对提供算力的底层硬件设施开发无感。当前存在的两个问题:一是用户代码开发与硬件架构紧耦合,应用开发需要使用硬件特定的开发环境和编程语言;二是当前异构硬件开发框架和编程语言生态封闭,无法实现跨架构的芯片开发互通。

算力解构

算力解构是通过算网统一编排,将组成应用的大量功能组件划分为多个部分,每个部分称为“子任务”,可以在不同的计算节点执行。子任务相比整个应用对算力资源的需求更低,再结合算力网络对多级算力资源的协同调度,能更灵活和充分地利用网络中尤其是网络末梢终端节点的算力资源。另外,由于应用包含大量依赖关系复杂的功能组件,如果直接面向功能组件进行资源分配,难以满足算力资源调度的实时性要求。因此,预先提供各类网络应用的任务分解方案,再面向分解后的子任务进行资源分配,能显著降低资源分配和任务调度的复杂性。因此,算力解构对提高网络资源利用率和任务调度灵活性有重要意义。

image.png

图3 任务分解概念

如图3所示,将网络应用的功能组件按一定的方法划分为不同的子任务,随后在资源分配过程中,子任务中的功能组件将被整体部署到不同算力的网络节点上,即资源分配的粒度为子任务粒度,不需要从任务组件粒度来考虑,因此能够降低算力资源调度的复杂度。

当应用已有分解方案,算网统一编排系统可以提供多粒度分解方案,包括组件关系依赖图、各个粒度下子任务的节点算力资源需求,以及子任务间的关系需求;当应用没有分解方案,系统收集应用的各个子任务组件对节点资源需求,以及应用的各个子任务组件之间的通信链路资源需求,由算力解构功能组件进行多粒度分解,然后,再将分解结果信息返回给算网统一编排系统。

其中,子任务或任务元以镜像形式封装,应用或服务需要实例化多个镜像,来构建完整的应用或服务。在之前的研究中,我们提出了一种基于节点权重图聚类的多粒度任务分解算法,在考虑任务元之间的计算节点自身的依赖关系的基础上,还考虑了任务元自身的计算需求量、存储需求量等因素的影响,通过将以上关系量化成关系指标,转化成距离关系,从而进行图聚类,并根据现有网络环境的因素,进行第二步聚簇细分,形成多粒度任务分解方案。

泛在调度

泛在调度以一种集中的方式来实现算网资源的统一调度,基于运营商对全网资源状态的感知能力,结合用户需求,可以为用户规划合适的部署或调整方案。

泛在调度系统通过算力感知功能获取网络中的算力资源信息(包括计算、存储、通信等资源),并通过对网络资源状态的监控获得链路信息。通过算力结构功能将用户的服务请求分解为子任务,并通过算力调度功能,进行部署方案规划,或对已有的部署进行调整。

利用算力解构对应用的分解,结合实际的计算及网络环境,泛在调度可以优化应用的部署方案。考虑到泛在调度受计算资源、网络资源、子任务间关系的影响以及优化目标的不同,关于调度算法的研究也相对较多。

本文提出了一个在云边协同框架中有效部署基于微服务的用户服务系统,确保了微服务的服务质量,同时最小化所需的计算资源。系统由通信感知的微服务映射器、争用感知的资源管理器和负载感知的微服务调度器组成。映射器根据通信开销将微服务DAG组件图划分为多个分区,并将这些分区映射到节点。在每个节点上,资源管理器基于强化学习来确定其微服务的最佳资源分配。微服务调度程序监控整个服务质量,并在运行时将微服务从繁忙节点迁移到空闲节点。

对应用程序的计算消耗、通信消耗以及等待时间进行建模,根据整个任务的负载结果,对具有不同资源需求和时延敏感性的应用实施不同的服务分布处理。将时延敏感性应用分布到边缘,将计算型应用分布到云端,以达到减少等待时间和能耗的效果,满足不同应用的需求。

本文综合考虑边缘服务器容量的不同、请求数量的变化、应用程序的复杂结构以及不断变化的地理环境等,提出了多缓冲区深度确定性策略梯度,利用强化学习和神经网络来学习服务分布策略,达到减少设备平均等待时间的效果。

算力并网

据IDC数据显示,截至2022年,现有中心化算力(云计算中心)占比预计不超过12%,分布式算力(边缘计算节点、个人PC等)则超过88%,整体算力资源利用率偏低。边侧的算力还未形成规模化效应,端侧的海量算力未得到有效利用。

为了使社会闲散算力得到充分利用,同时有效避免算力资源的重复建设,需要构建多方算力交易机制。算力交易涉及参与者众多,各方正探索全新的算力交易模式。算力并网是算力网络运营交易的核心,其通过引入区块链等去中心化技术,可以实现对闲散算力资源、多方算力资源和算力服务进行统一注册和管理,实现分布式算力统一运营。

算力网络一体化服务实践

为了验证算力网络一体化服务架构及相关技术的可行性,评估未来一体化服务的商业应用模式及价值,某省公司依托现网验证环境,对算力并网、泛在调度、算力解构以及算力抽象的功能进行了验证。试验引入一个省中心核心云和两个不同地市的边缘云,云上算力包括CPU算力和GPU算力,测试业务采用商用CDN中VR/AR和高清直播业务组件。

image.png

图4  算力并网架构

算力并网架构如图4所示,在测试过程中,首先通过算力并网,可以将云上部分算力、基于智能DNS的全局流量管理服务和基于负载均衡的本地流量管理服务两类一体服务贡献到算力网络系统中,实现闲散算力的流通及一体服务能力的应用。

image.png

图5  算力解构

其次,通过算力解构,CDN业务包可以被拆解分为多种有状态(例如Livepackager组件)及无状态组件(例如CACHE组件),根据业务需求部署在靠近源码流端和靠近用户端的位置,如图5所示。通过泛在调度,在用户移动时,无状态组件可以随用户进行实时热迁移,为用户提供优质连续的服务。

image.png

图6  算力抽象

CACHE组件在不同云节点迁移的过程中,会面临底层算力异构的问题,通过调用算力抽象,可以屏蔽云上算力差异,实现一套代码经过系统编译打包处理,即可在CPU算力和CPU+GPU算力平台上的部署,降低组件迁移难度,提升资源利用率,如图6所示。

测试中实时监测的资源及业务状态数据如图7、图8所示,当CACHE组件所在云节点计算资源利用率过高时,会触发CACHE组件自动迁移,迁移完成后,计算资源利用率恢复到低于阈值水平,整个过程业务不中断,用户无感知。

image.png

图7  CACHE组件迁移前,CPU使用率超过阈值

image.png

图8  CACHE组件迁移后,CPU使用率低于阈值


通信世界网版权及免责声明:
1、凡本网注明“来源:通信世界全媒体”及标有原创的所有作品,版权均属于通信世界网。未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载我方内容的单位,也必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和本站来源。
2、凡本网注明“来源:XXX(非通信世界网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的,请在相关作品刊发之日起30日内进行。
发表评论请先登录
...
热点文章
    暂无内容