大推理时代新型智算推理集群建设的思考与实践

责任编辑：王鹤迦 2025.10.09 09:06 来源：中移智库

通信世界网消息（CWW）人工智能的高速发展持续推高算力需求，DeepSeek等大模型的轻量化和低成本部署模式进一步激发了边缘推理应用爆发，加速了“大推理”时代的到来。新时代智能推理集群的发展仍面临新型算力架构技术和产业尚不成熟、端到端软硬协同优化能力存在短板、智算生态多而不优且互不兼容等问题。中国移动在新型智算推理集群建设方面已取得系列进展，建议产业各方进一步完善智能算力资源布局，持续加大核心技术攻关，深化产业合作和创新应用探索，共同推动我国新型智算技术和产业发展成熟。

DeepSeek引爆大推理时代

近年来，全球人工智能高速发展，国内外高科技企业纷纷构建万卡甚至十万卡智算中心，发布千亿甚至万亿规模参数大模型，通过“大模型+大算力+大数据”的堆叠，不断探索模型能力上限，“百模大战”如火如荼，整个人工智能产业聚焦“大训练”，多模态、长上下文等各种模型能力的竞争进入白热化。

今年2月，我国自主研发的大模型DeepSeek火爆全球，多项指标性能追平甚至超越国外先进大模型，在美西方国家对我国人工智能产业链全方位制约的背景下，成功走出了一条低成本、高性能的“突围之路”,甚至被认为是人工智能领域的最大“黑马”和“国运级别的产品”。DeepSeek通过“算法模型创新+算网设施优化+开源开放战略”的组合拳，在提升底层算网资源的使用效率的同时，大幅降低了大模型对算网资源的需求，推动了AI平权，加速了智能体、智能机器人等AI应用的普惠化发展。未来三年，中国智能算力规模总量将增长2.5倍，年均复合增速近40%，而推理算力的年增速将是训练算力的近4倍，预计2028年推理类算力规模将首次反超训练算力，一个崭新的“大推理”时代已经到来。

大推理时代智能算力将呈现出新的发展趋势：一是算力性能走向极致，大模型的发展持续推高算力需求，催生超节点等超高密度、超高算效的新型算力架构；二是智算格局发生变化，智能算力加速从集中走向分布，高性能推理集群、一体机等多样化推理算力形态不断涌现；三是垂直优化成为关键，DeepSeek开创了软硬件联合优化的模型发展新途径，驱动算网基础设施、模型和算法的更深层次协同和联合优化。

大推理时代新型推理集群建设面临的问题和挑战

超节点类新型算力架构在技术和产业上尚不成熟

随着稀疏MoE架构大模型逐渐成为主流，GPU卡间存在大量TP、EP等高频次、大带宽、低延时通信需求，较大的scale-up域对于提升模型训推性能至关重要。当前传统单机8卡智算服务器Scale-up域局限在8张GPU卡之间，且单机显存容量带宽和容量存在天花板效应，不利于大模型的运行效率和集群算能算效的提升。因此，产业界正在积极开展超节点服务器的研究，通过建立高带宽低延迟的卡间互联网络，扩大高带宽域规模，降低通信时间占比，提高推理时延性能。NVIDIA推出NVL72等超节点，华为推出CloudMatrix384超节点产品，国内其他服务器厂商的也都发布了初代超节点产品。但是目前业内超节点产品都面临诸多问题，首先是技术成熟度和开放度不足，相比于已经迭代数年的传统单机8卡智算服务器，其复杂度大大增加，尤其是卡间互联多为单厂商封闭性技术，开放度不足，且相关产品可靠性未经过大规模商用验证；其次，业内厂商发布的超节点多为初代产品，其研发成本高、定制化程度强，造成目前超节点产品价格高昂；最后，超节点产品单机柜的最大功耗可达百千瓦级别，普遍采用冷板液冷设计，与数据机房的配套耦合性较高，传统数据机房往往难以满足其部署需求，改造成本较高。

端到端软硬协同优化能力存在短板

模型推理关注性能与成本两大关键指标，推理性能影响到服务响应速度和用户体验，推理成本则决定了推理应用的规模化落地速度。高性能、低成本的推理一方面依赖于具备超强算力的智算硬件，另一方面更依赖于智算基础软件极致压榨硬件潜能。当前，尽管国产硬件在算力密度、能效比等指标上已取得突破，但在端到端软硬协同优化能力上还存在网络通信存在瓶颈、推理引擎性能不高、编译器运行时优化能力不强、高性能计算库缺失等系列问题，导致硬件与软件之间无法实现高效协同，严重制约了硬件性能的释放，使得推理性能难以达到理想水平，成为阻碍人工智能应用大规模落地与高质量发展的关键瓶颈。

我国智算生态多而不优、互不兼容

当前我国智算厂商围绕各自硬件纷纷构建包含编译器、算子库、训推框架等在内的基础软件系统，各自为栈、互不兼容，形成一个个碎片化的生态竖井。一方面，国产智算厂商依赖功能类似的基础软件系统将模型和应用锁定至各自生态竖井之上，致使模型与应用难以跨架构迁移部署，形成一个个“算力孤岛”，谁都无法发展壮大。另一方面，众多国产基础软件与CUDA差距显著，存在算子覆盖不全、编程模型不完备等问题，开发者基于国产硬件构建模型及应用或将其由CUDA向国产化体系迁移需重构代码，开发工作量大、时间长、成本高，进一步降低模型及应用向国产化生态迁移意愿，导致国产智算易陷入“差而不用、不用更差”的怪圈，良性生态难以构建。

中国移动在推理集群建设方面的实践和进展

为应对AI工作负载对互联架构提出的独特挑战，中国移动与产业界启动开放的全向智感互联标准（Omni-directional Intelligent Sensing Express Architecture，OISA）的协议制定工作，核心设计哲学可精炼地概括为一种先“减”后“加”的双重策略。其“减法”在于系统性地剥离传统网络协议栈中为通用性而设计的冗余部分，例如动态路由、MAC学习等复杂机制。这些机制在AI集群的确定性流量模型下不仅毫无必要，反而会引入额外的延迟和硬件复杂度。通过此番精简，OISA构建了一个极致轻量化的协议基础。在此基础上，OISA继而施行其“加法”策略，即在精简后的协议栈上，有针对性地集成专为AI工作负载设计的硬件加速引擎和高级运维特性，从而实现对性能的深度优化，最终打造出一个既简约又强大的专用互联解决方案。

体系化推进推理资源布局建设

中国移动积极落实AI+发展战略，匹配市场发展节凑，统筹考虑资源覆盖和效益效率，提前开展推理资源规划布局。基于推理业务特征，推理资源部署采用“低成本区域+热点区域”相结合原则，按照“N+31+X”的目标架构布局：N节点为集中化全国节点，在西部低成本中心集中化部署，承载海量高并发推理业务；31节点为分布式省级节点，在省级节点属地部署，承载中型企业的中心推理需求；X节点为分布式边缘节点，承载中小企业本地推理需求。最终目标是建成“中心集约、边缘泛在、覆盖全网”的体系化推理资源，满足公司内外部推理资源需求。

构建新型智算推理软硬件全栈技术体系

中国移动构建了包括算网资源层、基础软件层、推理平台层、MaaS平台层和应用层五层架构在内的新型智算推理技术体系（如图1），提出了包括全向智感互联OISA、全调度以太网GSE、算力原生等系列原创技术并推动成熟。

图1 中国移动新型智算推理技术体系

算网资源层，为推理服务提供计算、存储和网络等算力能力底座，采用云化架构，提供资源编排调度和运维管理功能，实现资源虚拟化和算力池化能力。在卡间互联方面，中国移动原创提出全向智感互联OISA协议体系，定义物理层、数据层、事务层标准，统一报文格式、多语义融合、多层次流控重传等关键技术，实现超节点内多GPU芯片的对等全互联, 目前已联合50余家上下游合作伙伴成立协同创新平台，发布OISA 2.0协议版本。在高性能存储方面，制定高性能融合存储创新系统架构，支持多协议融合互通、TB/s级高吞吐性能和热冷素具自动分级能力，提升智算数据处理效率。在机间网络方面，原创提出全调度以太网GSE技术，通过创新报文容器级负载均衡提升网络吞吐，动态全局调度队列（DGSQ）授权机制避免多打一拥塞、微秒级故障无损收敛提升网络可靠性等机制提升网络性能。

基础软件层，提供推理芯片配套的基础软件栈和高性能计算及通信算子库，实现对推理芯片算力的调用。提供RAG数据库和高性能数据库，解决大模型推理的时效性问题。中国移动原创提出算力原生技术，并打造了“芯合”异构超融合基础软件栈，实现多样算力一体适配，应用一次开发，跨芯部署迁移，破解智算应用跨架构迁移优化难题。目前，“芯合”软件栈已支持泛AI应用在8家厂商芯片上随需开发和跨架构迁移，迁移时间小于20秒。

推理平台层，提供模型预处理和推理引擎等功能。模型预处理通过模型压缩、算子融合等优化技术将模型配置成满足业务部署要求的模型。推理引擎是推理性能优化的载体，其将训练好的模型引入实际应用阶段，实现推理任务调度和性能优化，增加推理集群的资源利用率，降低推理成本，提升大模型推理的用户体验。中国移动打造“芯合”跨架构推理引擎，通过统一的算子库、通信库和运行时抽象，实现推理引擎与多模型和多后端的适配和推理优化。当前，推理引擎已实现Deepseek R1可从英伟达平台迁移至华为硬件上，推理吞吐量提升1.2倍，首字延迟降低48%。

MaaS平台层和应用层，汇聚模型、能力、智能体等资源，一方面提供以AI为核心的研发、运营、测试等全环节工具链和开发环境，显著提升AI开发创新效率；另一方面提供AI一站式落地的模型服务和覆盖多样化场景的AI应用服务。

牵引推动我国多元化智算生态繁荣发展

中国移动充分发挥链长作用，积极推动国产推理芯片生态建设。为加快国产推理芯片落地应用，中国移动建立了国产推理芯片评估评测平台，对多家国产推理芯片开展了评估评测，推动了国产推理芯片技术成熟，同时引入了至少4家国产推理芯片。为加快推动异构芯片训推迁移适配和异构芯片混推，中国移动自研了芯合跨架构推理引擎，可预先适配异构硬件后端，向上保证模型一次适配、灵活异构部署，实现国产大模型在国产推理芯片上的应用。

新型智算推理集群发展建议

为充分把握大推理时代的智能算力发展的新机遇，推动我国新型智算推理集群的高质量发展，提出以下三方面发展建议。第一，加快完善智能算力资源布局，构建“中心集约、边缘泛在、中训边推、训推一体”的全国一体化智算供给体系。第二，持续加大智能算力核心技术攻关，打造自主可控的新型智算技术“中国方案”。第三，深化产业合作，开拓我国智算生态健康发展的新格局。

通信世界网版权及免责声明:

1、凡本网注明“来源：通信世界全媒体”及标有原创的所有作品，版权均属于通信世界网。未经允许禁止转载、摘编及镜像，违者必究。对于经过授权可以转载我方内容的单位，也必须保持转载文章、图像、音视频的完整性，并完整标注作者信息和本站来源。
2、凡本网注明“来源：XXX（非通信世界网）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的，请在相关作品刊发之日起30日内进行。

发表评论请先登录

发表评论

评价

共0条评论

...

热点文章

...

技术文章

...

会议活动