通信世界网消息(CWW)NFV(网络功能虚拟化)理念及架构为电信网络基础设施及其运维带来了深刻变革,驱动了底层通信网络技术的持续演进,其技术演进历程可划分为三个关键阶段。
第一阶段(自2010年起):虚拟化技术驱动解耦与重构;第二阶段(自2016年起):容器化技术赋能敏捷部署与运维;第三阶段(自2022年起):AI重塑云网融合。
历经十余年发展,电信云架构与功能趋于成熟,现已能够在大规模生产网络中依托容器化平台全面支撑5G部署。目前智能业务的快速增长、云原生与AI技术的革新,以及现有体系在易用性与可靠性等方面的不足,促使电信云加速迈向新一代架构。
商业驱动:电信云需支持新型智能化业务
生成式AI技术的突破使行业迈入AI时代。大模型凭借强大的自然语言处理、内容生成、泛化迁移及多模态交互能力,正在重塑业务设计范式与应用架构,为网络运维管理、客户服务等场景注入新动能。
通过智能流量入口,AI重新定义新型通话服务;在AI智能运维方面,辅助Day2运维操作,提升业务质量及资源效率;在体验导向服务方面,借助网络智能,赋能下一代服务模式。
智能业务正推动电信云从NFV向AI原生基础设施演进。电信业务在训练与推理环节的需求,对计算密度、GPU显存容量及数据中心互联带宽提出了前所未有的挑战。为此,需要构建全新的AI原生基础设施,以支持异构计算、低时延与大带宽的网络连接,以及分布式资源调度,从而实现弹性资源池化与智能任务编排等能力。借助这些能力,新一代AI原生架构不仅能够支撑高并发推理服务,还能持续优化模型迭代。
技术驱动:多元算力引领架构新范式
当前,通用算力稳步增长,而AI算力则快速攀升:未来,通算有望实现单服务器256核。随着电信云服务趋于稳定,数据中心规模将在通算能力增强的背景下显著收缩。同时,智算因AI负载的加速部署而呈现爆发式增长,推动算力配比发生根本性转变。
计算架构从以CPU为中心走向以总线为中心的超节点架构。在CPU中心架构中,服务器总线以CPU为核心,连接DRAM、SSD、NIC、BMC等,接口形式各异。其主要瓶颈包括CPU与DRAM之间的“内存墙”、CPU与NIC之间的“I/O墙”,以及CPU自身的算力与功耗限制。随着GPU、NPU等AI算力引入,算力已从单一CPU扩展到异构XPU架构。架构的核心瓶颈也由计算模块转移到模块间的高速互连。未来节点架构的演进方向将聚焦利用互连技术整合多样化计算模块,并通过优化互连设计新的计算范式。
“应用+编译+芯片”垂直整合。未来电信网络的智能化将以AI推理为核心能力,推理成本优化将成为技术演进的重要方向。当前,业界采用软硬件协同设计的范式,通过垂直整合流程来突破性能瓶颈。在AI应用开发中,硬件开发流程被深度嵌入软件评估环节,形成端到端的联合优化体系。设计初期,开发人员对芯片参数(如能耗、算力、物理布局等)进行建模,并与AI模型特征(如序列长度、注意力机制复杂度等)相结合;应用编译技术则对硬件与应用特征进行整体评估,开展仿真测试,充分释放硬件潜力。
痛点驱动:易用性与可靠性提升
在云原生时代,电信云引入服务化理念,采用微服务架构增强灵活性,同时也对基础设施提出了新的挑战。细粒度弹性和管理能力的引入显著提升了电信云管理复杂度。电信云自动化成为产业共识,领先运营商正加速迈向自动化网络。电信云自动化和智能化将成为保障高可靠运营的核心目标。
智能化电信云架构如图1所示。

图1 智能化电信云架构
智能化云管
通智统一管理:以电信云MANO为统一入口,实现智能网元通算与智算统一管理和编排,支持数据实时处理,保障资源高度稳定,实现智能运维,推动智能化与自动化演进。
智能化演进:通过统一“管道”实现全域端到端自动化,推动动态网络自动化与无人化运维向智能化演进。智能化演进依托大模型驱动的运维助手和专家系统,降低人工运维复杂度,结合AI驱动的主动故障预防与数字孪生技术,全面保障网络的100%安全与可靠运行。
多样化平台
异构资源池化与调度:统一管理跨厂商的异构算力资源及同一厂商的多版本硬件,实现集群架构下软硬件的高效融合与深度优化。支持通算池与智算池的统一管理与调度,并依托AI基础设施控制混合计算资源,提供电信级虚机、容器资源。
极简电信云:探索简化电信云部署与运维方案,参考如主机路由(HBA)等方案,通过网络自动化、远程访问管理以及“零接触”配置,简化运维操作,减少因硬件层面网络动态配置而产生的现场人工干预。
高性能硬件底座
高速互连总线:基于超节点架构,实现跨节点、跨机框的远程直接内存访问能力,打破节点间计算与内存池化的边界,并提供多节点、多机框资源的统一管理。
分布式存储系统:基于块存储的分布式文件系统针对KV缓存管理进行优化,在成本与性能之间实现平衡。该系统专为AI工作负载设计,尤其适用于多轮对话序列的持久化KV缓存,以及集群范围内的共享访问,并支持亚毫秒级的数据检索。
多样化运行生态:微服务与容器在短期内仍是云部署的主流形态,安全沙箱(如gVisor/Firecracker)与Serverless作为补充计算范式,可保障大模型相关风险可控(如可用于大模型自动生成代码的质量与漏洞分析以及外部工具调用的安全隔离)。
电信云解决方案
电信级:智能业务应满足实时处理、高并发、高精度与高可靠等电信级特征,具备低时延的高并发推理能力、高精度的意图识别能力,以及高可靠的弹性算力调度能力。
开放性:顺应端云协同趋势,兼容业界智能生态,遵循ETSI标准,打造开放AI使能平台,支持多样化AI负载与主流模型,兼容MCP、A2A等开放接口协议,助力云端AI应用,抢占智能化转型先机。
节能性:通过智能调频、智能上下电、资源碎片整理、业务负载感知与业务预测等智能化手段,既保证系统的可靠性和安全性,又确保业务需求回升时实现确定性的资源恢复,并满足SLA要求。
AI原生电信云关键特征
在云原生时代,云原生的电信云具备弹性扩展、敏捷部署、自动化管理、简化交付、电信级可靠性及“IaaS+PaaS”双栈能力。进入AI原生时代,电信云进一步增强以下五大方面的能力。
一是AI赋能的自动化基础设施:基于深度学习实现超自动化、自愈、自优化和自治。
二是AI驱动的分析能力:具备自规划、自决策和自闭环能力。
三是AI定义的网络:融合网络架构,将人、设备、数字角色与嵌入式AI拓展至AI模型与多模态数据,并将网络边界从移动通信网络延伸至移动信息服务网络。
四是AI使能业务创新:推动服务创新从移动互联网演进至AI互联网,为各类AI服务提供连接。
五是用户亲和力:基于智能化能力,为终端用户提供全时段、全域按需智能化体验服务,基于用户体验提供高精度流量管控。
结语
电信云智能化演进已成为行业发展的关键方向。在NFV标准领域,业界愈发关注人工智能如何推动NFV架构演进,并计划启动关于电信云AI基础设施演进的报告讨论与起草工作。中国电信期待与行业领军者携手,共同构建下一代智能电信云。


