全国一体化算力网探索与研究

作者:中讯邮电咨询设计院有限公司 裴培 吴鹏 吕城锦 中国联通网络运营事业部 高允翔 冯毅 责任编辑:王鹤迦 2025.04.23 14:36 来源:通信世界杂志

通信世界网消息(CWW)随着人工智能、元宇宙、工业互联网等新兴技术的迅猛发展,算力已成为继电力、网络之后新的核心生产力,新业务对算力资源的高效供给、灵活调度及跨域协同提出了前所未有的要求。传统算力架构受限于资源孤岛化、调度粗放化、服务静态化等瓶颈,难以满足低时延、高可靠、泛在化的智能服务要求。在此背景下,构建以“全局互联、智能协同、场景驱动”为核心的算力智联网,成为破解算力供需失衡困局、释放数字经济潜能的关键路径。

本文聚焦算力智联网的核心技术挑战,提出“标准-通道-调度-网关-服务”五位一体的技术方案:通过构建统一算力互联网标准体系,解决多厂商设备兼容与跨域互操作难题;设计基于全光网络和“SRv6+FlexE”的跨域高速算力互联通道,实现微秒级时延保障与带宽按需切片;创新算网一体化智能管控架构,深度融合SDN网络与算力编排引擎,实现算网资源的智能调度;研发智能算力网关,提供协议转换、算力封装与可信交易功能,形成“用户-算力-网络”的价值闭环;最终面向模型训练、AI应用、工业互联等典型场景,构建场景化算网服务引擎,实现“算力即服务”的按需供给。本文旨在为算力互联网的体系化建设提供理论支撑与实践参考,助力我国在全球算力竞争中占据战略制高点。

构建全国一体化算力网的必要性

党的十八大以来,国家高度重视算力网等新型基础设施 建设。2022年“东数西算”工程正式全面启动,打造全国算力“一张网”。2023年12月25日,国家发展改革委、国家数据局、中央网信办、工业和信息化部、国家能源局五部门联合印发《关于深入实施“东数西算”工程 加快构建全国一体化算力网的实施意见》。

算力网是将全国范围的通用计算、智能计算、超级计算等大型异构算力资源与数据资源进行互联互通的数字基础设施。算力网将算力节点互连,就能充分发挥这些算力资源的作用,实现资源高效调度、设施绿色低碳、算力灵活供给、服务智能随需,以算力高质量发展赋能经济高质量发展。

算力网价值分析

算力网可推动东西部算力协同,加强国家枢纽节点与非国家枢纽节点地区联动,促进跨区域、多层次算力高速直联网络建设,依托新兴网络技术提升网络传输效能,降低东西部地区数据传输成本,切实解决海量数据传输技术问题,加强算力与数据、算法融合创新,探索算力市场交易结算机制。

算力网有利于释放数据要素的创新活力,通过算力网将全国范围的算力、数据等资源汇聚共享,可显著降低数据传输成本,切实解决海量数据传输技术问题,推动算力与数据、算法融合创新,催生更多新的应用场景和商业模式。

算力网有利于引导和推动传统产业转型升级,统筹通、智、超算力协同计算,帮助传统产业通过数据分析、数据建模等实施更精准的生产策略,推动算力、数据、算法协同应用,促进产业全要素的互联互通;同时在人工智能方面,算力网能够为人工智能提供泛在分布的算力、丰富的数据,形成“人工智能+”的产业赋能新范式。

此外,算力网是落实“双碳”战略的必要环节,能够充分发挥西部地区气候、能源、环境等方面优势,引导数据中心向西部资源丰富地区聚集。通过算电协同调度,算力网可以统筹算力、电力协同布局,促进算力与电力相互支撑和协同发展,促进可再生能源(如风、光、绿电)的就近消纳。

业界共推统一算力互联网建设

当前,全球范围内算力互联网的探索已进入实践攻坚阶段。中国信息通信研究院率先发布《算力网络技术白皮书》,推动算力标识、服务分级等标准体系构建;在三大运营商中,中国移动依托“算力网络试验网”实现“云边端”资源动态编排,中国联通提出“算网一体”架构强化异构算力纳管能力,中国电信以“东数西算”枢纽为核心布局跨域资源池化;鹏城实验室则通过“中国算力网”大科学装置,在智算集群联邦调度与光网络协同优化领域取得突破。然而,各主体在技术路线、接口规范及生态协同上的碎片化问题,制约了算力互联网的规模化发展。

中国信息通信研究院早在2019年便正式启动算力网络相关研究,坚持倡导算力互联互通,基于“先互联、再成网、同步建市场”的推进思路,推动算力互联网实现了从理论探索到实践应用的深度跨越;2023年,中国信息通信研究院发布了算力互联互通验证平台,与众多算力服务商开展了深度对接和联调工作;2024年12月,中国信息通信研究院发布了《算力互联互通标准体系1.0》,为算力互联网发展提供指导框架。

中国信息通信研究院着重推动实践创新和应用落地,联合产业各方开展多个主题活动,规划了“1+M+N”算力互联网业务网,与企业共同开展新技术、新模式、新业态试点试验,推动算力互联,协调供需匹配,实现算力跨域调度。

中国移动将“算力网络”作为重大战略发展方向,努力推动建设统一算力网络成为产业共识。在2024年中国移动算力网络大会上,中国移动聚焦算力、算网、算数、算脑四个方面,正式发布“一体化算力网络领航数智产业行动计划”。

中国移动积极构建“N+X”大规模智算基础设施,已打造一批万卡级、千卡级智算集群,在呼和浩特投产的超大规模单体液冷智算中心入选“央企十大超级工程”;建设高速算间网络,2024年3月贯通全球首条商用400G全光网链路,建成全球领先的SRv6承载网,全面贯通八大算力枢纽节点,打造“1—5—20ms”三级时延圈,夯实算网智联底座;创新打造数联网(DSSN),全面构建数据流通基础设施,提供一站式申请、开通数据流通专属算力网络功能,落地国家数据要素综合试验区“中国数谷”;创新打造算网大脑,实现智能编排,统一调度“通、智、超、量”多样化算力,突破亿级每日调度能力,打造长三角枢纽算力调度平台标杆,助力“东数西算”工程落地。

中国联通大力推动一体化算力网构建,在中国联通2024 年合作伙伴大会上发布了算力智联网AINET,针对智算时代多元化业务互联需求,通过网络架构、组网和设备技术创新,实现“高通量、高性能、高智能”三大核心能力。基于AINET,中国联通开展了从上海到宁夏3000千米长距RDMA流量传输验证,通过无损流控、端网协同、拥塞控制等技术,端口带宽利用率从20%提升到90%。2022年中国联通研发并上线了算网一体化编排调度平台,推动东西部国家枢纽节点算力一体调度,打造国家枢纽节点算力服务和调度典型示范,以算网调度平台为核心,实现面向多种应用场景的算网一体化融合服务。

中国电信聚焦算力建设和调度,以此构建一体化算力网。2024年天翼云作为“国家云框架”全面迈向智能云发展的新阶段,在北京和上海建设国内领先的万卡全液冷智算集群。在算力广泛布局的基础上,中国电信打造的天翼云算力分发网络平台“息壤”,以构建全国一体化算力网为目标,接入合作伙伴算力达27EFlops,能够助力跨地域算力灵活调度,有效整合各方异构算力资源,向全社会提供标准化算力服务,并实现了规模商用。以“息壤”为核心的一体化智算服务平台,凭借强大的智算能力,深度赋能千行百业数字化转型,并成功入选2024年国家数据局发布的首批25个“全国一体化算力网应用优秀案例”,成为首批算力网建设的先进性、创新性代表。

2024年12月,鹏城实验室与新一代人工智能产业技术创新战略联盟联合发布中国算力网(C2Net)开源开放试验场最新科技成果。鹏城实验室牵头建设的E级智能算力大科学装置“鹏城云脑”构建了一站式开源平台,通过算力网以云际互联的方式接入30多个分布在全国的公共算力集群,兼容了12种异构算力芯片,搭建了面向人工智能协同开发的软件工具链,服务开源社区各种差异化需求。2025年中国算力网还将聚焦强化开放算力供给、推出易用组件工具、共享海量优质数据、落地多样运营活动等方面,进一步推动创新与发展。

算力互联网面临四大挑战

算力互联网的核心目标是实现跨域互联、异构算力资源的高效协同与智能调度,从而满足日益复杂的计算需求。然而,算力互联网仍面临着诸多技术挑战和攻关难点。

一是算力互联网的相关标准体系建设滞后,算力度量、接 口规范等标准尚处草案阶段,跨厂商设备互通率不足60%。跨域资源统一标识与管理是关键难题,由于不同机构或区域的算力资源具有异构性,其硬件配置、软件环境和服务能力各不相同,如何为这些算力资源建立统一的标识体系并实现高效管理,是构建算力互联网的前提。

二是高效低时延传输技术是算力互联网面临的一大挑战。大规模计算任务的跨域调度需要依赖高速网络支撑,但在实际应用中,数据传输的延迟、带宽瓶颈以及网络拥塞等问题仍然制约着算力资源的有效利用。如何在复杂的网络环境下实现高吞吐量、低时延的数据传输,并确保服务的稳定性与可靠性,是未来技术攻关的重点。

三是智能调度算法的优化与扩展也是迫切需要解决的问题。算力互联网的核心价值在于通过智能调度实现算力资源的最优配置,但现有算法在面对海量异构资源和复杂任务需求时,往往面临计算效率低下、资源分配不均衡以及动态适应性不足等问题。如何设计更具普适性和高效性的调度策略,并结合人工智能技术提升系统的自学习能力,是未来研究的重要方向。

四是针对不同业务场景,算力互联服务也不尽相同。由于实际场景的计算任务可能涉及多种类型的数据(如图像、视频、文本等),这些数据的处理需要不同类型的算力资源协同工作,特别是算力和网络资源的融合调度和协同,是提升系统整体性能的关键。

此外,算力互联及算网融合的商业模式目前还不清晰,83%的企业担忧跨域计费结算体系缺失,因此应尽快构建算力期货等新型交易机制。

综上所述,算力互联网的未来发展需要在跨域资源管理、高效传输技术、智能调度算法、场景化算网融合服务等方面进行深入研究和突破。只有攻克这些技术难点,才能真正实现算力资源的全局优化配置,为产业发展提供坚实的技术支撑。

算力互联网的关键技术及方案

构建统一算力互联网标准体系

目前,国际标准化组织IEEE已经组建P2301、P2302等 工作组,持续推动算力互联和互操作技术的标准制定工作。国内也已成立算网融合产业及标准推进委员会(CCNIS),旨在推动算网融合技术和产业发展。目前国内推动算力标准制定的力量,主要来自运营商、算力服务商、网络设备商,具有权威性和普适性的标准体系还未形成,对算力网的产业化发展提出挑战。因此,建议优先构建算力网标准体系,在以下四方面加快推动权威性标准的制定。

一是制定算力并网标准。我国各类算力提供主体超5000 家,由于主体多元化、区域分割、基础架构差异、调用接口私有化等问题,算力互联呈现“局域网”现象,未能形成全域、跨服务商的统一接入标准,缺乏统一的算力资源和网络资源感知能力,算力的标识符各不相同,给算力在网关、应用侧的解析带来问题。

二是制定算力度量标准。算力目前缺乏牵引产业公正性和权威性的“标尺”,各类专用芯片的异构算力无法进行统一度量,无法适应多样性算网协同平台发展,算力资源彼此的调度、互联互通、快速部署等难以实现。

三是制定算力互联标准。要实现泛在分布算力资源的标准化互联,需要统一算力互联互通标准,包括算力编码、路径、解析、协议等内容,从而推动数据传输流动、计算任务分发部署、应用架构适配等关键环节的统一化,实现算力调度真正落地。

四是制定算网服务标准。在多元化算力供给的状况下,算力没有形成可感知和调度的标准化服务,因此需要制定算网服务标准,从而通过算力互联网找到位置、成本、性能均合适的算力资源,提升算力交易、人工智能、模型训练、智算平台、云渲染、视频编解码等算力服务的兼容性和协同性。

建立跨域高速算力互联通道

为构建全国一体化的算力网,承接国家“东数西算”工程,跨域高速算力互联通道一方面可依托国内运营商已有网络基础与优势,构建低时延、广连接、智能化、便捷化的“云网边”多级算力承载网;另一方面可以结合算力枢纽节点分布情况,构建东西部之间的专用网络通道(如图1所示)。如构建高速骨干直联网络,满足算力高效联网调度,以及算力资源间快速、稳定、弹性的数据传输需求。

image.png

图1 算力互联专用网网络架构

基于互联网通道的算力互联网可以承载to C用户访问算力的业务流量,广泛接入全国IDC资源,提供差异化保障服务,保障算力应用的时延要求。企业用户专网可以承载to B用户访问算力及东西向算力互访业务流量,广泛接入公有云服务商、IDC、运营商等算力资源,提供异构算力的安全连接能力。算力互联网依托运营商城域网可以提供to C、to B、边缘算力的综合接入,承载云边互访流量,实现云边统一调度和业务协同。打造全国一体化的算力互联专用网络可以提供算力节点间的高速专用运力通道,特别是智算、超算节点之间需要的高通量、低时延、确定性网络服务。同时,应结合400Gbit/s和800Gbit/s全光传输网络,以及“SRv6+FlexE”的IP技术。

实现算网一体化管控和调度

算网一体化调度需要算力和网络资源无缝对接、资源池化,构建统一的资源视图,实现网络拓扑、带宽、流量、算力和存力等实时呈现,从而实现算网资源统一纳管、业务自动开通、故障实时监测等一体化调度。

针对智算资源和模型训练对网络传输的新需求,只有确保广域间智算算力的高速传输,才能满足各级时延圈要求,实现基于互联网、企业专用网、智算直联网络的高效互联、灵活配置、弹性调度。在资源调度过程中,需要对跨算力节点、跨异构平台的任务快速分发。算网一体化调度技术架构如图2所示。

image.png

图2 算网一体化调度技术架构

在构建算力互联网络连接时,一要快速建立算力连接,基于全域网络的智能化SDN管控,实现跨域智算网络连接的敏捷拆建和可靠连接;二是根据时延要求选路,根据业务的时延要求,提供智能选路和低时延隧道的动态连接;三是弹性带宽调整,根据业务流量趋势,提供弹性、分时段调整的网络带宽,满足业务灵活配置需求;四是业务快速开通,实现算网资源的一体协同调度,“跨中心智算资源+网络连接”能够分钟级自动开通。

同时,跨平台智算调度和任务分发网络通过对接多个智算节点、AI训练平台,实现直接提交AI 任务和开通裸金属智算资源两个层级的调度。这需要将多个智算中心能力统一进行封装和标准化,构建统一AI训练平台,并根据用户模型特点、算力需求,调度最合适的智算中心资源,完成任务的自动部署、资源的自动开通。

打造自主感知算力的智能网关

目前互联网应用主要集中在OTT厂商,运营商主要采用IDC资源机架出租模式,短视频、电商购物、搜索引擎等跨数据中心数据同步或计算的场景目前没有完善的解决方案。在通算、智算、超算、量子计算等一体化算力协同时代,运营商可以建设专用的DCI互联网,以及算力直连网络,提高算力节点间的连接能力。与此同时,为了实现用户的业务快速接入和体验增强,运营商可以在算力节点的DC(数据中心)出口,构建一台用来连接算力和用户接入的综合网关设备,兼容业务接入和DC互联。

以公众互联网为例,其可以构建两级算力网关,即用于用户业务接入的算力接入网关和用于算力连接的智算网关,算力智能网关布局如图3所示。算力接入网关对接运营商骨干网的PE 路由器,承载用户访问公有云资源的南北流量。鉴于单用户流量少、用户并发数大的特点,业界一般采用商用路由器产品,其所支持的路由表项、ACL数量、QoS策略数量多。智算网关类似DCI路由器,用于数据中心互连,承载公有云内部服务器之间的数据同步、大数据分析、容灾备份、虚拟机迁移等东西流量。由于单条流带宽大,流量并发数小,初期可基于商用路由器,之后可逐步过渡到自研白盒路由器,以简化功能、降低成本。

image.png

图3 算力智能网关布局

对于企业用户专网和算力直联网络来说,智算网关是算力中心的统一出口和算力专网的核心设备,主要完成训练、推理数据的传输承载,为算力资源的智能 调度提供必要的数据传输能力和解析能 力。算力枢纽、智算中心等算力资源节点 通过智算网关接入骨干直联网,为用户 提供大容量、安全可靠的数据传输和跨 域协同训练。因此,智算网关的技术要求 相对较高,主要包括数据传输承载、算力 资源调度、跨域协同训练三个方面。

一是数据传输承载。设备支持高密度100Gbit/s和400Gbit/s端口,满足基础大模型及增量训练的高通量数据传输要求。支持“IP+光技术”,实现跨层、跨域端到端光数统一控制和一体化调度。

二是算力资源调度。设备北向支持通过RESTful API接收算力信息通告,基于空闲算力资源实现算力寻址,创建满足需求的SRv6 隧道;支持随流检测功能,实现流量调优。

三是跨域协同训练。设备端口支持高速、大容量缓 存,满足广域RDMA协同 训练的网络无损要求;支持 PFC、ECN、Fast CNP等流控技术,保障网络能快速感知拥塞,防止训练中断。

提供场景化的算网融合服务

算力互联网建设的最终目的是能够跨域、跨网调度位于各层级的算力资源,并提供算力间的专有服务通道,实现算力间数据的高效流转,从而为新型计算任务提供精细化、场景化的算力服务。算力服务商面向用户可提供算力交易服务;算力互联网运营商构建并运营算力资源互联互通和调度平台,同时整合算力资源,提供算力互联以及计量结算服务;算力提供商通过统一算力标识体系上报算力资源以开展算力资源服务;网络运营商提供弹性的差异化网络服务,满足用户差异化计算任务所需的运力资源。

结合目前主流的业务需求,本文提出聚焦三大场景打造新型算网融合产品及服务,如“东数西备”服务、AI模型训练调度服务、视频算网产品、数据快递产品等,提供“算力即服务”,实现算网融合的高效赋能,推动产业构建算网融合生态。

一是提供训推协同场景服务。基于算网平台的多元异构算力高效供给能力,以及基础网络广泛接入的覆盖优势, 训推 协同可依托集约化管理能力实现“算力产品化供给+广域协同 调度”的云网一体新特色,支撑“中训边推”“西训东推”等训 推协同场景。

算网协同可实现算力智能调度。通过时延优先、成本优先、位置优先、负载优先、数据优先等编排策略,实现智算任务在私有智算、政府智算、公有云商智算等异构泛在智算云池最优算力节点的智能调度。

泛在分布的云边智算资源池可构建训推协同的算网融合服务,实现“中心—骨干—边缘”三级深度协同,将智算任务分配到最合理的资源节点;通过一键下发AI模型到一个或多个边缘推理侧节点,实现训推之间的自主闭环,支撑“中训边推”“西训东推”等场景。AI训练与推理一体化协同架构如图4所示。

image.png

图4 AI训练与推理一体化协同架构

二是提供通智协同场景服务。通智协同是指通算、智算资源在同一个业务场景下,基于算力互联网络实现跨架构、跨地域的资源协同;基于网络互联、模型迁移适配,融合适合逻辑处理的通用算力、适合智能化数据分析的智算算力,完成通智算力一体化,共同支撑高性能业务场景。

基于通智一体的车辆识别网络架构如图5所示。

image.png

图5 基于通智一体的车辆识别网络架构

三是提供资源弹性伸缩服务。跨服务商、跨地域的智算资源可提供分布式推理分发能力,实现将AI模型自动分发到一个或多个资源节点,支持人工指定和基于策略智能调度部署节点;实时感知AI模型推理服务的资源及SLA指标,配置弹性伸缩策略,结合实际的请求情况动态调整推理服务部署,实现智算资源及智算服务的最优化配置。分布式算网资源弹性伸缩架构如图6所示。

image.png

图6 分布式算网资源弹性伸缩架构

总结

本文阐述了构建算力互联网的目标、路径以及多种场景 化的算网融合服务方案,希望通过技术创新和服务模式优化,实现跨域、跨网算力资源的高效调度与利用,为新型计算需求提供精细化、场景化的算力支持。在“东数西算”背景下,算力互联网的发展前景广阔,通过持续的技术创新和模式探索,算力资源的利用效率将进一步提升,从而更好地满足多样化的业务需求,并推动我国数字化转型迈向更高水平。

通信世界网版权及免责声明:
1、凡本网注明“来源:通信世界全媒体”及标有原创的所有作品,版权均属于通信世界网。未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载我方内容的单位,也必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和本站来源。
2、凡本网注明“来源:XXX(非通信世界网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的,请在相关作品刊发之日起30日内进行。
发表评论请先登录
...
热点文章
    暂无内容