通信世界网消息(CWW)2023年底,国家发展改革委等部门发布《深入实施“东数西算”工程加快构建全国一体化算力网的实施意见》,要求全国通用算力、智能算力、超级算力等多元化算力加速集聚。在此背景下,我国智算产业呈现蓬勃发展的态势,尤其是以Deepseek为代表的开源模型,极大地推动了智算应用的拓展。随着市场化应用需求的不断增长,智算产业的需求结构正逐步从训练侧向推理侧转移。运营商面临国家政策支持的机遇与智算能力整合的挑战。本文从AIDC(人工智能数据中心)布局、智算云能力、智算网络、大小模型端云协同能力方面进行分析,通过梳理全球智算产业发展情况及机遇挑战,提出运营商智算发展的应对策略,为运营商在智算产业发展浪潮中的应对策略提供参考。
全球智算产业发展分析
持续强化战略协同与创新,塑造智算产业核心能力
全球各国将智算作为重点发展方向,通过战略规划引领智算产业演进。美国发布了《国家人工智能研究和发展战略计划》,并启动了AI智算中心建设项目,成立智算中心基础设施特别工作组,从政策、机构、资金、项目全面支持智算能力的塑造。日本相继出台《人工智能战略2022》《人工智能运营商指南》《人工智能相关技术研发及应用推进法》等多项政策,并开展了超算、生成式AI加速器等多项试点项目。同时,日本还与其他国家开展合作,加快推进智算算力与深度学习、生成式AI的融合演进,推动AI领域的创新发展。欧盟委员会发布了《欧洲数据战略》《走向卓越和信任的欧洲路径》等多份报告,并形成了《人工智能协调计划》,同时开展多项试点项目推进智算基础设施建设和技术发展。例如,在推出的人工智能大陆行动计划中,通过AI千兆工厂,推动AI和基础设施建设的深入融合。
智算领域的演进依赖于算力、算法与数据的深度融合。当前,全球各国正通过制定战略规划和推进项目计划,持续培育本土智算产业的核心技术能力。同时,各国还积极强化国际技术交流,推动内外部协同创新,以促进算力、算法、数据等基础技术的协同发展。
持续夯实训练能力,加快建设推理能力
在算法模型的实际应用中,通常分为训练和推理两个阶段。尽管当前的“百模大战”已暂时告一段落,预训练模型的热度也有所降温,但随着业务的不断发展,行业动态呈现出以下两个趋势:一方面,目前行业内普遍在加强训练能力的建设,为了满足未来更广泛、更综合、更普惠的推理需求,为其奠定坚实的基础;另一方面,为了实现智算业务的盈利,智算产业必将朝着满足市场需求的垂直领域发展,众多贴合具体应用场景的推理模型将不断涌现,以满足不同行业和场景的个性化需求。
在训练方面,模型训练涵盖预训练、扩展上下文、后训练三个阶段,耗费大量的人力物力。以DeepSeek V3为例,尽管其训练成本低于其他大模型,单次训练仍需约500多万美元,且前期研究及架构、算法、数据消融实验的成本,更是远超单次训练成本。因此,业内对训练的投入正在收敛。例如,美国的训练投入已开始收敛,集中于OpenAI、Anthropic、Gemini、Llama、Grok等企业。即便如此,训练模型仍在朝着完善的目标演进,主要呈现两个方向:一是通过开源方式去完善匹配市场需求。DeepSeek开源后,模型能力不仅持平甚至超过闭源,快速占领市场聚拢产业生态。随后,百度、OpenAI等闭源厂家积极拥抱开源。基础模型开源逐渐成为行业主旋律。二是朝着多模态方向发展,自然语言处理(NLP)已经快速发展到一定程度,下一波的升级将会朝着多模态发展,融合文生图、文生视频及人机交互等。多模态因更能吸引大众,将会带来更多的智算算力的部署。
在推理方面,推理模型所需的算力将会增加,主要体现在以下三个方面:一是产业需求。从产业角度看,业务推理是面向市场需求盈利的最后一步,国内外企业均会加快部署推理模型及推理算力节点。二是成本与需求悖论。DeepSeek展示了先进模型可采用较低的算力成本,但根据杰文斯悖论,当技术进步提高资源使用效率,成本降低却导致需求增加,进而导致资源消耗速度上升而非减少[2]。三应用场景扩充。随着不同类别的应用接入、上线Deepseek,其使用场景扩充,势必增加推理所需算力部署。目前,国内外企业纷纷加快布局推理赋能市场需求。例如,OpenAI 推出o3推理模型,赋能分析图像、图表和图形等视觉任务。亚马逊作为云服务提供商,积极布局满足大规模推理的算力;腾讯加快布局多模态模型,其视觉深度推理模型混元T1-Vision已经上线;科大讯飞发布深度推理大模型讯飞星火X1,并提供面向行业的解决方案能力。
运营商在智算领域面临的机遇挑战
国内政策持续发力,智算产业蓬勃发展
国内相继出台政策推动智算产业蓬勃发展。近年来,《新型数据中心发展三年行动计划(2021-2023年)》《“十四五”国家信息化规划》《“十四五”数字经济发展规划》等多项政策相继出台[3],明确指出要推动智能计算中心有序发展,打造坚实的智能基础设施。2023年底,国家发改委等部门发布《深入实施“东数西算”工程加快构建全国一体化算力网的实施意见》,要求到2025年底,全国通用算力、智能算力、超级算力等多元化算力加速集聚,掀起智算等算力布局的新热潮。
各地积极响应“东数西算”战略,结合市场需求和区域特点,推行创新举措。2025年,北京市海淀区计划每年投入超10亿元,涵盖攻关投入、算力补贴、数据奖励、场景支持等多方面。同时,北京聚焦具身智能芯片等领域研发,致力于打造全球 AI 创新策源地。上海发布《上海市关于促进智算云产业创新发展的实施意见(2025-2027年)》,提出到2027年,上海市智算云产业规模力争突破2000亿元,智算规模力争达到200EFLOPS。广东出台《广东省关于人工智能赋能千行百业的若干措施》,提出加快国家枢纽节点数据中心建设,围绕重点应用场景做强城市边缘智算中心,加快归集现有训练算力,增强可共享算力。山东发布《山东省数字基础设施建设行动方案(2024-2025年)》,提出重点在人工智能发展基础较好,产业需求旺盛的地区集约化开展智算中心建设,鼓励重点企业布局智算中心。西部地区积极承接东部算力需求,大力发展数字产业,甘肃、宁夏中卫等地积极布局支持智算产业发展。
科技公司也纷纷布局“东数西算”等新基建领域。百度云在阳泉智算中心布局智算所需的算力、存储等基础设施,为多领域提供高效算力服务。阿里云在张北、乌兰察布等多地开展相关智算算力布局。
作为“东数西算”工程的重要参与者,运营商积极推进智算产业集聚发展。中国联通构建“1+N+X”智算能力体系,包括1个超大规模的单体智算中心、N个智算训推一体枢纽和属地化的X个智算推理节点,推出“星罗”先进算力调度平台,提供“通算-智算-超算”异构算力服务、算网协同服务、算电协同服务[4]。中国电信规划并建设覆盖全国的“2+3+7+N+M”集中训练、分布推理、云智一体的智能算力布局。中国移动构建“N+X”大规模智算基础设施,为智算产业的发展提供坚实支撑。
智算产业百家争鸣,行业能力亟需整合
随着通用人工智能(AGI)技术创新与战略竞争的不断加剧,底层算力及其架构优化的投入正逐步扩大。与此同时,推理算力需求的增长推动了智算算力的快速演进,目前呈现出百家争鸣的态势。例如,在Deepseek R1发布后,已有约20家国内AI芯片企业相继宣布适配或上架DeepSeek模型服务[5]。在使用国外算力资源的同时,国内企业及科研机构也在加大国内外合作,推动了芯片技术的不断进步和多样化发展。
智算算力的充分发挥需要一个涵盖多样化技术的综合体,包括底层算力、组网技术、算力池化技术、算子、编程接口、数据平台、计算框架、服务化能力、算法模型等。算力的多样化带来了技术的演进,但同时带来了使用上的差异性,这就需要进行能力的整合,使其成为一个一体化的能力体系。智算算力需要重点关注两个方面的能力整合:一是要推进测试标准化发展。由于智算算力在软件栈、硬件架构等方面存在的差异性,其支持的计算精度、算力容量、适用场景、能耗等方面也存在较大的差异。基于此,业界应当持续推进对智算算力的测试标准化工作,涵盖容量、能耗等多个维度。二是推进算力原生标准化发展。各厂家芯片的架构和上层软件框架各不相同,存在一定的碎片化问题。在实际开发和部署时,难以在不同厂商的智算算力产品之间进行平滑迁移和切换。因此,推进编程框架的开源开放和统一标准显得尤为重要。
另一方面,DeepSeek的创新为行业带来了新的技术研究方向。算法模型的使用优化趋势,正从以往通过堆积算力、扩大数据规模来实现,转向训推全流程的工程优化来实现。工程优化内容趋于以下四个重点方向:一是模型结构优化,通过以计算换内存、降低通信时延等方式,从空间和时间两个维度开展双向优化;二是降低计算精度,调优并行策略,通过优化保证训练最终的精度;三是后训练优化,简化强化学习流程,降低后训练复杂度;四是推理优化,一次预测多个Token,提升推理效率。工程优化能力亟需整合到实际的项目中,以提升单位算力的使用效率,降低使用成本。
运营商在智算领域发展策略的思考
加快布局AIDC,形成推理算力合力
在“东数西算”战略及训练需求爆发的背景下,各地政府和头部企业纷纷出资建设数据中心,布局智算资源,主要集中在“北上广”、宁夏中卫等地区。然而,随着智算产业逐步进入依需建设推理节点的阶段,部署方向正逐步朝着人口密度、经济发达(GDP规模大)的地区倾斜。
运营商借助其网络覆盖度广的优势,可以搭建算网一体的分布式、多节点推理节点。通过深化多级算力资源布局,逐步优化智算资源配置,基于运营商现有的数据中心进行升级改造,形成按需配置的智算数据中心(AIDC)。从长远看,算法模型需要开展基础模型的优化,并根据市场需求部署低时延推理需求节点,因此运营商应借助网络优势,构建全国性大规模训练中心以引领训练突破,同时,各省及地市部署训推协同的层次化数据中心,从而显著提升按需匹配调度和弹性供给的能力。
加快AI与云结合,构建智算服务能力
智算领域的发展是一个整体技术能力的提升,包括算力、算法、数据的协同。算力、算法、数据是基础性技术,需要借助云计算的加持,将三者整合为一个一体化能力,对外提供服务。AI技术的成果在云计算领域中逐步显现,像大模型和生成式AI这些技术,正在成为推动云服务收入增长的关键动力,从国内外云厂商的AI相关收入贡献度来看,AI的普及度与云厂商业务增长呈现出正相关性。例如,亚马逊、微软、阿里云、腾讯云等企业,其智算驱动的AI计算服务同比增长迅速。
运营商应加快推动AI与云的结合,形成智算服务能力。一方面,需要利用智算能力,让云服务更智能;另一方面,需要持续构建从底层智算算力到上层应用的云服务能力。这需要更合理的布局、更高的计算效率和更稳定的运维能力。更合理的布局需要构建通算、智算一体化能力体系,并结合分布式部署模式开展建设。更高的计算效率需要持续挖掘单位算力的计算潜力,这需要在编译、并行计算、集群通信、推理架构等方面的不断优化,从而降低智算业务成本。更稳定的运维能力需要全方位接入智算基础设施及业务数据,强化预警机制,并利用智算能力本身,开展自治能力提升,形成用户无感知恢复能力,提升服务质量。
加快算力互联网络建设,推动智算应用快速落地
随着以Deepseek为代表的开源模型兴起,应用场景不断拓展,带来了海量数据传输、低时延等诸多需求。一是通信协议优化:行业内智算互联的主流通信协议、部署模式需要优化,如ROCE协议和通信库计算模式,需要进一步优化,以提升数据传输效率和降低时延。二是算力集群扩展:小型算力集群已无法满足日益增长的算力需求,需要通过网络互联实现算力的扩展和协同。三是算网联动需求:AI智算算力建设目前较为分散,客观上要求实现“算网联动”,以优化算力资源的配置和利用。
为应对上述挑战,运营商需要在算力端侧、智算中心、广域三个方面开展算力互联网络建设与优化。在算力端侧方面,需要对内部的GPU互联进行优化,并对智算中心和广域的传输提供锚点支撑,开展相关优化研究;在智算中心方面,内部算力节点的互联需要进行创新,包括交换机、网络流量监控与控制、流量调度等,以提升中心内部的算力协同效率;在广域网络方面,需要实现IP+光协同,打造超高带宽,超低时延,超高通量的基础承载网络,以高效传输计算数据,满足智算场景下的大规模数据交互需求。
加快AI与无线网络结合,打造大小模型端云协同能力
算力时代,中国与欧美逐渐形成了差异化的发展格局。欧美运营商主要专注于基础网络服务,而中国运营商则坚持网云并重,积极构建综合性新型数字信息基础设施,推进算网融合,以网强算。在上述背景下,随着5G-A/6G 和AI 原生技术的发展,运营商需要加强大小模型的端云协同建设与运营能力。
中心云部署的大模型具备推理质量高、部署便捷易扩展的优势,但也存在一些问题,如推理成本偏高、网络中断和请求繁忙可能导致的服务可用性低、可靠性与安全性相对欠佳。相对之下,端云协同架构兼具本地实时快速响应、隐私保护与安全能力,以及云端的精准推理能力。此外,众多终端设备的接入有助于削减算力基础设施的费用。
无线通信具有移动性强、部署灵活、扩展性好等优势,且目前大多终端设备是通过无线通信进行网络接入,因此应结合无线通信网络,形成大小模型端云协同能力。另一方面,端侧应用场景如智能语音助手、自动驾驶等需要小模型的赋能,这进一步促进了大小模型的端云协同,形成合力。