面向AI的新型IP骨干网演进

作者:中国电信研究院 傅志仁 阮科 雷波 责任编辑:包建羽 2025.12.17 08:55 来源:通信世界杂志

通信世界网消息(CWW)目前,人工智能正以前所未有的速度重塑各行各业,超大规模集群成为AI基础设施的核心,网络重要性显著提升;以大模型训推为代表的AI新场景推动网络带宽和承载性能快速升级;海量内容和数据运行在网络上,需要更高的网络可扩展性和健壮性。以智能体为代表的AI新业态出现,智能体之间的协同将成为未来AI业务的重要场景,以A2A协议为代表的智能体通信协议成为IETF等组织重点关注的标准化对象,网络需要适应新的通信服务形态。

AI骨干网是分布式算力集群互联的关键网络,《中国运力发展报告(2024年)》提出“单一算力中心已难以满足日益增长的算力应用需求,多算力中心协同参与业务处理的需求正在持续提升,需要更加高速灵活的算间互联网络,便于数据在多算力中心间进行高速传输。”AI骨干网在满足跨数据中心丰富内容(如照片和视频)带来的海量数据复制需求的同时,还承担处理带宽、可用性和延迟需求差异巨大的AI应用任务,其中包括对延迟和可用性要求高的用户交互应用,以及高吞吐、大带宽的批量计算负载。产业界应围绕国家算力发展要求,优化升级IP骨干网,为社会数字化转型和人工智能升级提供赋能和支撑作用。

AI时代IP骨干网演进驱动力

算力设施带来网络大带宽需求

AI应用拉动网络带宽需求快速增长,大模型单轮训练数据互联需求达到TB级甚至PB级,实时推理需要低更低时延和更稳定带宽支持。过去4年中,单GPU显存带宽从H100的3TB/s提升至GB200的7.2TB/s,增长2.4倍;集群互联带宽从400Gbit/s飙升至12.8Tbit/s,增长32倍,DCI骨干网带宽复合增长率达到45%,远超传统互联网流量增速。预计到2030年,AI任务相关流量将占全网流量的60%,成为绝对主导。

AI应用场景推动高可靠与高性能网络

AI应用对IP网络可靠性和性能的要求远超传统互联网,训练场景中GPU服务器间频繁进行高通量通信,RDMA(远程直接存储器访问)通信要求网络极低丢包和极低延迟以及99.999%的超高可靠性。大规模训练使用10万多张GPU,高延迟波动会造成GPU利用率大幅下降;严重的网络故障可能导致训练任务作废,边际经济损失巨大。越来越多的AI推理服务部署在关键任务系统中,如金融风控、医疗诊断、智能交通等,需要满足毫秒级响应和低抖动要求;AI对话系统要求200ms端到端时延,超时将导致用户流失;自动驾驶感知要求50ms端到端反馈,否则决策风险剧增。

AI技术推动网络智能化升级

AI技术是IP骨干网技术升级的重要推动力。考虑到广域网运行环境的复杂性与外部事件的不确定性,传统的路由协议和流量工程技术难以应对海量应用场景的快速变化需求。IP骨干网需要与AI技术深度融合,借助AI算法增强网络智能感知能力,提供流量可视、数字孪生、异常预警等;基于AI大模型和算法重构网络智能决策能力,实现智能路由、智能调度、智能切片;基于AI自动化工具打造智能执行层,构建具备“意图理解、逻辑推理”能力的网络智能体,实现网络配置、优化、故障处理全流程自动化,进而迈向高等级自智网络。

AI业务催生多模态网络新需求

AI时代的IP骨干网将同时承载“人-人通信”、“人-机交互”、AI智能体之间的协同,业务通信模式差异极大,需要在统一的网络上实现高效融合与逻辑隔离,同时兼顾业务体验与安全合规。此外,新的通信模式对网络标识、寻址和路由有新的需求,如基于身份的寻址、智能DNS、智能体路由、零信任接入、无协议转发等。当前单一的IP寻址、路由和数据转发模式难以完全满足,未来的骨干网应加快向多模态网络转型,有效兼容多种业务编址、路由和硬件转发体系。

面向AI的IP骨干网架构要点

云网融合是AI时代数字基础设施发展的核心特征,未来网络架构将以AIDC/DC为中心构建,聚焦智能云业务,统筹光缆网、传输网、IP网和接入网布局,逐步推动实现固移融合和6G空天地一体化网络,攻关低空、卫星通信等核心技术,打造弹性高速、无损智能的DCA/DCN/DCI网络服务,精准匹配业务资源需求,实现网络、算存、数据、模型、应用一体化服务供给,IP骨干网是人工智能网络体系的重要一环。

为应对未来网络发展的新挑战与新机遇,IP骨干网应从“以数据传送为中心”向“以智能服务为中心”演进,将网络的传输能力与人工智能Token消耗深度关联。国家数据局数据显示,截至2025年6月底,我国Token日均消耗量已经突破30万亿,与2024年初的1000亿相比,1年半增长了300多倍,模型推理的增长势头非常强劲。IP骨干网应加快架构升级和能力提升,更好地服务AI业务场景,重点体现在以下四个方面。

数据驱动的智能控制面:从SDN到ADN

2006年SDN概念诞生,控制面从网络设备中剥离成为集中化的独立软件,集中式控制器通过南向接口(OpenFlow、PCEP、BGP-LS)实时采集拓扑与流量矩阵,使用全局优化算法(如线性规划、最大流、多商品流)计算显式路径,再批量下发到设备;IP骨干网获得了“一键调优”能力,带宽利用率从40%提升到70%~90%。SDN技术实现了控制与转发的分离,但控制器和核心算法仍以人工配置和规则驱动为主,难以适应AI时代的高度动态化业务变化和极致性能需求,智能化水平仍有极大的提升空间。

当算力、算法、数据三要素齐备,IP骨干网将引入AI定义的控制面作为核心组件,重点实现“控制策略可学习、可演进”。首先,基于意图的网络让运营人员只需声明“训练集群同步延迟小于10ms”,网络自动把意图转译为多目标优化函数,并推理给出“可承诺边界”,输出路径概率分布,天然解决传统线性规划“离散-松弛-舍入”带来的性能损耗问题。其次,在IP骨干网部署网络数字孪生能力,实时维护网络状态镜像,通过对比“预期状态-实际状态”自动触发闭环调优;基于在线强化学习技术,对“路径-延迟-丢包”三元组进行奖励建模,在仿真环境中自我博弈出“逃生策略”,实现故障毫秒级自愈、隧道权重优化和在线策略梯度更新。最后,推理引擎下沉至网络数据面,本地GPU/TPU微秒级完成策略推理,进一步提升网络策略执行效率。

极简协议和极简数据面:从IPv6到多模态网络

IP骨干网将从“协议繁复、功能刚性”走向“极简转发、协议无关”的新范式,以应对多元化应用的共存、演进与变革,以及功能与安全兼容的时代要求。传统IP骨干网数据面被MPLS、RSVP-TE、LDP、BGP等层层叠叠的协议包裹,网络设备极其复杂,新业务须等待标准成熟、芯片迭代、现网割接,周期以年计。随着云和AI业务流量占比超过90%,IP骨干网对“快速上线、弹性承载、零中断演进”的诉求快速增加,极简、协议无关成为数据面演进的方向。

极简网络体现在向IPv6演进上,IP骨干网可率先演进至IPv6单栈网络,围绕IPv6单栈构建管控和安全体系。SRv6 SID、AI语义、In-band OAM、随路Telemetry,都可作为“用户自定义标签”随包穿越全网,中间节点无需理解其含义,有效解决路由表容量与转发性能的矛盾。

AI骨干网向“意图驱动、零人工、零协议”的多模态网络演进,多模态网络可根据业务SLA需求,实现软硬件组态、报文格式、路由协议、交换方式、转发逻辑、部署策略的协同调度,支持多种运行模态的动态加载和运行,实现多元化和专业化的资源高效集约供给。网络数据面实时分析链路抖动、队列深度等微指标,针对业务SLA智能调整,实现“数据面自我进化”。协议标准、封装格式、转发行为不再是预设的静态契约,而是随业务需求、网络状态、硬件能力动态生成的“即时合约”,IP骨干网数据面将逐步迈入“协议无关、极致极简”的多模态时代。

端到端高可用、安全网络:从单一集中控制到混合协同

高可用是未来面向AI的IP骨干网的核心特征,一方面,要对传统SDN集中式控制架构进行优化,适应频繁变化的流量需求、新数据中心的加入以及新链路的引入,能够在不中断服务的情况下对控制平面进行实时迁移和更新;另一方面,骨干网络需要对潜在广域环境下链路或中间节点故障具备快速响应能力,以提升路径计算效率,减少响应周期内可能的丢包问题。同时,AI骨干网还必须考虑简捷操作的设置,满足不同应用、不同等级流量类型的快速调度需求。

AI骨干网可借鉴数据中心网络设计,由单一逻辑网络向多逻辑平面网络新架构迁移,物理拓扑网络划分为多个并行的拓扑,即“平面”,每个平面承担一部分负载,并拥有独立的集中式控制栈,平面间流量按需控制,灵活迁移,可便捷地实现新算法的渐进部署、灰度发布和平面间的A/B测试,最小化对实时流量的干扰。高可靠网络的控制架构应由集中式架构向集中与分布式混合控制架构转型,集中式控制器负责全局流量工程,而分布式控制则利用本地信息快速响应变化。这种混合架构兼顾了集中流量工程算法的智能、高效管理流量的优势,能够快速响应故障,确保网络服务的连续性。

与此同时,IP骨干网需要将安全能力内嵌于网元和运营中,实现内生安全、全域可信。构建自主可控的软硬件安全能力,内生实现威胁建模、安全基线扫描和软件供应链安全;同步构建智能安全的运营体系,借助AI技术实现事前攻击预警升级、跨域路由安全事件智能研判和自动阻断,响应时间缩短至秒级,保障业务中断零感知。

低时延、“无损”的高性能网络:从尽力而为到“确定性”服务

AI时代的高性能IP骨干网络,需要IP、光、RDMA深度协同,从“哑管道”逐步向端到端“确定性管道”演进,构建面向AI场景的分布式算力的内存总线和分布式数据的互联总线。

面向AI业务的极致性能需求,IP骨干网的“低时延+高吞吐”将从单点优化进入“光电融合、端网一体”的新阶段,路由与光层打破专业壁垒,联合调优;RDMA走出IDC机房,以原生形态落地骨干网,IP、光和算力三者在统一控制面下被编排。

运营商IP骨干网转型路径

新一代IP骨干网将延续云网融合发展理念,以AIDC/DC为中心,向“三新网络”转型,重点服务AIDC/DC间的大规模东西向流量,并构建AI骨干网,助力运营商打造AI时代的第二增长曲线。

新架构:极简广域网

新一代AI骨干网将秉持网业分离和极简架构理念,平衡网络容量、成本和可靠性,更好地支持AI时代大带宽和差异化业务需求。

首先,应秉持开放解耦的核心理念推动网络升级。推动实现网络业务逻辑与网络转发机制的解耦,简化网络配置,快速适配各类AI新业务的差异化需求;推进产业链的开放解耦,降低网络建设成本和定制成本,让IP骨干网向协议无关的多模态骨干网转型,成为AI时代的普惠基础设施;实现网络协议的简化和网元功能的裁剪,通过控制面和数据面的协同,以简洁、标准的可编程转发逻辑替代多样化的路由协议。

新控制:数据驱动的智能控制

新一代AI骨干网将全面升级网络的智能控制能力,将AI技术嵌入网络内生控制逻辑,构建实时闭环控制系统,实现“感知—决策—执行”一体化,有效提升网络的可靠性、转发性能和端到端时延性能。

IP骨干网的管控系统与云基础设施深度协同,升级AI骨干网的控制面能力,全面实现从软件定义到AI内生的转型;持续提升控制面对网络状态数据的采集与分析能力,数据采集的精度和广度覆盖网络运行状态,夯实数据基础;构建更加健壮的网络控制系统架构,支持混合部署模式,兼顾集中控制面的智能高效以及分布式控制的可靠性;构建闭环控制系统,实现“感知—决策—执行”一体化;与云服务深度融合,实现网络能力的全面开放,以及面向差异化业务的灵活封装。

新运营:智能内生的高效运营

IP骨干网将借助AI技术全面提升网络“规建维优”全生命周期的智能化水平,以新一代AI工具为核心,智能体与大模型深度渗透,将故障预判准确率提至90%以上,70%的网络告警由AI自动响应,打造体系化运营工具。

以数字孪生技术为基础构建网络世界模型,打造基于数字化网络仿真系统,实现网络关键操作的灰度覆盖和故障的快速复现;以强化学习技术与优化理论为基础研发网络智能设计和优化工具,持续迭代网络策略模型;引入AIOps(人工智能运维)平台,基于AI大模型技术建立网络知识图谱,支持意图识别、策略推理和故障根因分析,实现故障预测、自动修复;推动IP骨干网运营水平向L4(高度自动化)阶段演进,部分场景将加速向L5(完全自智)迈进。

结语:迈向AI原生网络

未来,以AI智能体为代表的AI原生应用将无处不在,AI骨干网络将成为AI智能体之间协同、学习、决策的“神经中枢”。推动算力、数据、模型跨地域高效流转——既为东部数字经济核心区提供海量训推算力、数据和模型能力,又为中西部地区提供轻量化推理算力,支撑“东数西算”战略深化,成为国内数字经济高质量发展的硬支撑。

面向AI的IP骨干网演进,不仅是技术的演进,也是未来网络架构重构的核心方向和AI商业生态竞争的新战场,AI骨干网将遵从云网融合理念,围绕AIDC需求持续发展,从SDN集中控制到AI原生自治,逐步演进成为具备业务感知、智能调度、自适应优化能力的AI原生网络。构建AI原生骨干网络,是网络工程师与AI创新者的共同使命。

*本篇刊载于《通信世界》2025年12月10日*

第23期 总981期

通信世界网版权及免责声明:
1、凡本网注明“来源:通信世界全媒体”及标有原创的所有作品,版权均属于通信世界网。未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载我方内容的单位,也必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和本站来源。
2、凡本网注明“来源:XXX(非通信世界网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的,请在相关作品刊发之日起30日内进行。
发表评论请先登录
...
热点文章
    暂无内容