通信世界网消息(CWW)在数字经济加速渗透的当下,运营商作为网络服务的核心提供者,正面临着 AI 技术爆发、业务规模扩张与绿色低碳转型的多重挑战。存算协同作为提升网络服务效率与质量的关键路径,与绿色低碳发展理念相辅相成,成为运营商构建未来竞争力的核心抓手。在这一背景下,如何通过存储、计算与网络资源的深度协同满足多元化业务需求,同时平衡能耗与效率,推动产业生态自主可控,成为运营商亟需破解的重要课题。
AI 时代存力需求升级
人工智能技术的飞速发展,特别是大模型的广泛应用,正在对数据存储系统提出前所未有的严苛要求。在AI训练和推理等核心应用场景中,数据的读取、存储与传输速度已成为决定训练效率的关键因素。存力需求已从单纯的容量诉求,全面升级为对高带宽、高并发、高能效、低时延和可扩展五位一体的综合能力要求:
高带宽成为AI存力的首要特征。大模型训练需持续加载海量数据集,高带宽可以满足高速读写需求,减少GPU计算资源等待时间,从而保障整体训练效率。
高并发是处理海量元数据和随机访问的关键。AI训练涉及海量小文件(如样本、标签、参数)的并发访问,极高的IOPS能力确保了这些元数据操作瞬间完成,保障了训练和推理任务的高效调度与执行。
高能效是在可持续发展背景下日益关键的经济与环保指标,面对算力密度和存储规模攀升带来的巨大能耗压力,存力系统需通过硬件、软件及架构创新,显著降低每TB存储或每次IO操作的功耗,实现绿色低碳目标。
低时延访问是AI存力的另一关键要求。低延迟访问成为实时 AI 应用的核心诉求,请求必须在极短时间内得到响应,存储响应速度直接影响模型推理的用户体验。
可扩展是支撑业务持续增长的核心架构能力。多模态大模型的发展使得训练数据从纯文本扩展到图像、视频、音频等多种形式,数据规模呈现爆发式增长。根据中国信通院数据,2025年全球AI训练数据总量将达2020年的10倍以上。存储系统需要实现容量与性能的线性增长,支持从PB级到EB级的平滑扩容,同时保持性能的一致性。
这些需求使得传统存储技术体系面临严峻挑战,成为制约算力效率释放的关键瓶颈,运营商需要从存算协同、绿色低碳、引领推动产业生态发展几方面开展相关工作。
存算协同:重构网络服务效能的核心逻辑
存算协同通过打破存储、计算与网络的资源壁垒,成为运营商提升网络服务效能的核心路径。其核心逻辑在于构建 “数据 - 算力 - 网络” 的动态适配机制。
目前存算协同方面存在短板主要包括:①数据传输瓶颈:AI 芯片处理能力快速提升,但数据从存储到内存再到 GPU 的传输效率难以匹配,导致高性能计算硬件无法充分发挥效能。②存储与计算性能不匹配:部分企业搭建 AI 平台时,过度集中于核心算力,忽视了存储系统的优化,使得存储性能无法契合计算需求。③存储与网络协同不足:在大规模 AI 应用中,数据在不同节点、服务器、机架和数据中心间频繁移动,若网络架构未针对存储优化,容易引发网络拥塞,影响数据传输速度,进而制约存储与计算资源的协同效率。
存算协同可以从存储架构、协议协同和调度协同三个层面系统性地展开:
1) 多级存储架构协同:构建分层分温的数据流水线
顶层:GPU HBM(高带宽内存):作为算力核心的“工作台”,专用于存放当前计算任务所需的“热数据”(如模型权重、激活值),提供纳秒级延迟和每秒TB级的极致带宽,但容量有限,成本极高。
中间层:服务器本地SSD和外部全闪存存储池:存算协同的核心支柱,提供百万级IOPS和百GB/s级带宽,延迟在微秒到毫秒级,容量为PB级。
容量层:对象存储/分布式文件系统用于存放温、冷数据(如原始训练数据集、历史数据、备份),虽然延迟较高,但确保了数据的无限扩展和持久化。
2) 协议协同:多级存储架构的高效协同,依赖于新一代高速传输协议来消除网络瓶颈,NVMe-oF + RDMA 的组合拳,为多级存储架构提供了“血管”和“神经”,使得数据在各层之间的流动几乎感知不到网络延迟,真正实现了全局存储资源的池化和高效共享。
3) 调度协同:可以构建统一的资源管理平台,对存储、计算和网络资源进行集中管理和调度,根据 AI 任务的需求动态分配资源。调度协同是让多级架构和高速协议发挥最大效能的“大脑”。它通过对计算任务和数据位置的感知,进行全局智能决策。
绿色低碳:从单点节能到系统协同
面对AI算力爆发式增长带来的巨大能耗压力,绿色低碳已从可选项变为必选项。运营商正从单点节能向系统级协同节能演进,构建全方位绿色低碳体系。
在 IT 基础设施层面,新型节能SSD芯片成为绿色转型的重要抓手,在 AI 存力体系中占据着关键的战略地位,是推动 AI 发展的核心要素之一。一方面,新型 SSD 芯片可实现更低时延,提供更高带宽和 IOPS,能满足 AI 训练中大量数据的快速读写需求,同时采用更先进制程,在能效比上表现优异。另一方面,新型SSD芯片还具备计算加速功能,可以加速数据处理。如华为25年8月推出了AI-SSD, 将AI推理中的矢量运算(如大模型依赖的KV-Cache)直接迁移到SSD闪存介质中,利用存储单元物理特性完成部分计算,减少对先进制程和高成本HBM显存的依赖,从底层解决AI存储效率问题。
平衡 AI 训练效率与能耗的核心在于 “精准供能、减少浪费”,在系统协同方面,需从架构优化、协议创新和管控调度等方面进行突破。
在网络架构层面,基于电交换的智算中心面临容量和能耗两大制约瓶颈。电交换机交换容量增长放缓,同时能源效率随带宽增长不断降低。相比于电交换机,光交换机的单位bit功耗平均降低10倍,业界正在探索光电混合新型组网方案。光电协同技术是实现智算中心网络高性能通信的重要技术路径,面对成倍增长的通信容量,急需利用光电协同技术突破传统电交换技术与多层分级网络架构约束。Leaf或Spine层交换机可以完全或部分由光交换机替代,同时在各层交换机上或统一调度层部署适用于光电融合交换的路由策略和交换机制。这种方案可显著降低智算中心的整体能耗,同时结合电交换的灵活性和光交换的高带宽、低时延特性,可以解决传统网络架构难以满足超大规模算力集群互联需求。从协议创新方面,业界主要聚焦于拥塞控制、负载均衡算法以及RDMA协议的优化来提高网络吞吐及AI训练效率,需要交换机与服务器端网协同达到通信效率最优化。从管控调度方面,通过智能化的管控与调度、自动化运维等手段可以确保网络的高可用和高可靠。
引领推动产业生态发展
运营商作为产业链核心买家,其 IT 集采策略直接影响存算协同与绿色低碳的落地节奏。从集采角度,运营商会重点考量读写速度、耐用性和能耗比等指标。AI 训练中,大量数据需在短时间内读写,顺序读写速度直接影响数据加载时间。高耐用性可保证在长时间、高强度 AI 训练任务中稳定运行,降低因芯片损坏导致的数据丢失风险与维护成本。高能效比芯片可在降低电费支出的同时,减少散热系统投入。同时通过提高国产化产品采购占比、引导产业链协同发展等方面推动网络与 IT 产业生态的自主可控发展。另外,运营商还通过积极制定行业标准和建立测试体系引导产业发展,有力推动存算基础设施向高性能、绿色低碳、自主可控的方向发展。
结语
AI时代的存力发展正经历深刻变革,从传统的"数据容器"跃升为激活数据要素价值的"战略基座"。存算协同和绿色低碳作为两大关键引擎,正推动运营商数智化基础设施向高效、智能、可持续方向演进。运营商的探索既需立足当下业务痛点,更需着眼长远生态构建。随着国产芯片技术突破与集采机制完善,存算协同将逐步从 “技术概念” 转化为 “服务能力”,为数字经济高质量发展提供坚实的网络底座。