通信世界网消息(CWW)随着大模型迈入规模化落地新阶段,产业发展重心已由模型训练转向推理服务,大模型正式开启推理时代。在多模态应用普及、长上下文需求激增、Agentic AI快速爆发的多重驱动下,推理需求呈爆发式增长,成本与性能的平衡成为产业核心命题,单纯依赖硬件升级已难以满足高效、经济、稳定、绿色的规模化应用需求。当前,推理优化从单点优化走向系统级协同优化,正加速向各行业渗透赋能。
为明晰技术演进路径、沉淀产业实践经验、为行业提供技术指引与可落地解决参考,中国信息通信研究院(简称“中国信通院”)人工智能研究所联合中国人工智能产业发展联盟正式发布《大模型推理优化关键技术及应用实践研究报告(2026年)》。
报告以《大模型推理平台技术能力成熟度》《MoE开发平台技术要求》等系列标准为参考,系统梳理了大模型推理面临的主要挑战、核心优化技术、产业落地成效、典型行业应用案例及未来发展趋势,助力产业实现精准、高效、经济、绿色的推理规模化应用,推动大模型产业从技术创新迈向高质量普惠发展新阶段。
报告核心观点
1. 大模型迎来推理拐点,成本压力倒逼推理优化。需求侧,推理服务需求呈指数级增长。我国日均Token调用量两年增长超1400倍,2026年初突破140万亿;受Agentic AI等应用驱动,推理计算量两年间增长达1万倍;服务平均序列长度两年增至2.7倍。供给侧,算力资源持续向推理环节倾斜。全球计算工作负载中推理占比快速提升,我国推理算力市场规模将翻倍至876.5亿元。成本侧,成本压力与降本趋势同步显现。2024年OpenAI推理预算已为GPT-4训练预算的15倍,持续的算力、存储成本加重企业落地负担,驱动行业构建全链路优化体系。Gartner预测,2030年大模型推理成本较2025年将下降90%以上。
2. 模型、场景适配与算力成本平衡成三大核心难题。一是针对模型演进的适配滞后,大模型向MoE架构、原生多模态、百万级长上下文快速升级,对推理基础设施的前瞻性、灵活性要求提升。二是场景差异化适配难度高。低时延场景要求毫秒级TTFT,高并发场景追求高吞吐,长上下文场景受KV Cache显存占用制约,流量波动考验系统弹性,静态推理系统难以兼顾多元需求。三是算力需求与成本控制矛盾突出。存量算力因软硬件兼容难以复用,异构算力调度存在多重困境,长记忆需求推高存储成本,DRAM/SSD/HDD价格指数大幅上涨,进一步加剧成本压力。
3. 推理优化目标从性能提升到降本增效走向绿色高效。初期,聚焦优化时延(TTFT/TPOT)、吞吐(TPS/RPS)等单一性能指标。既无法适配差异化场景诉求,也未纳入算力、存储等成本考量,与规模化落地需求脱节。当前,大模型进入商业落地阶段后,优化目标升级为“精度-性能-成本”协同,即在满足服务等级目标(SLO)约束的基础上,统筹平衡用户体验与算力成本,更契合企业级落地需求。未来,进一步纳入能耗指标,聚焦“性能+算力成本+能耗成本”的协同,通过单位算力吞吐、单位能耗吞吐等核心指标,推动大模型推理服务向精准、高效、经济、绿色方向升级,为大模型产业的可持续、规模化落地提供核心支撑。

来源:中国信通院
4. 推理工程从单点优化迈向系统级协同优化。第一阶段为功能集成阶段,提供压缩-部署-推理-服务的流程串联,以及RAG、Agent等功能搭建。第二阶段是单点优化,以高效压缩技术和推理引擎为核心,聚焦显存优化、计算优化、并行加速等。第三阶段是系统级协同优化阶段,综合“模型-架构-场景”进行深度优化,实现高性能与经济落地。未来,将迈向Token经济时代,进一步实现成本压缩、能耗控制,支撑大模型产业的可持续、普惠化发展。

来源:中国信通院
5. PD分离与MoE相关系统优化(大EP、AF分离)成为热点。一方面,PD分离架构以KV Cache为核心,经2024年技术迭代,2025年已进入产业落地阶段。Mooncake、Dynamo、UCM等工业级方案通过以存换算、分级存储、分布式内存池等技术,实现更快响应、更大吞吐、更长文本处理,以及SLO自适应能力。另一方面,MoE模型架构跻身主流后,头部企业基于PD分离进一步针对MoE探索系统优化:一是,MoE大集群成为布局重点,DeepSeek推理系统为典型案例,跨节点EP、PD+EP的产业热度不断提升。二是,AF分离快速兴起,MegaScale-Infer、Step-3等通过AF分离+定制通信库,实现专家负载均衡与路由智能优化。整体沿“PD分离—MoE优化进阶”路径迭代。
6. AI存储驱动推理系统实现原生智能升级。当前已实现基于分层缓存、数据卸载的外置存储推理加速方案,有效突破显存资源和记忆数据瓶颈,显著降低推理时延、提升吞吐效率、优化算力成本,成为大模型规模化部署的标配支撑能力。未来正走向面向智能体(Agentic AI)的原生架构升级,由数据存储向知识存储、记忆存储演进,一是将碎片化资源转化为细粒度知识,结合多维检索与重排序技术,提升知识生成和检索能力,二是提供精准的记忆萃取与召回能力,实现上下文状态的长期保持,优化大模型“易遗忘”的通病。通过AI存储的持续创新将构建统一记忆管理、多模态检索、多智能体协同的新型支撑体系。


