通信世界网消息(CWW)近年来,随着大模型能力的快速发展,且以DeepSeek-R1、OpenAI o1等为代表的大型推理模型(Large Reasoning Models,LRMs)通过“链式思维”(Chain-of-Thought,CoT)或自我反思机制等技术路径,极大提升了复杂推理任务的解决能力,其在科学研究、编程开发、数学推理、专业分析等方面展现出较强的应用潜力,有效加速了大模型的落地应用进程。
大模型持续升级的背后是数据处理规模的不断提升。计算系统在历经从通用到专用、从单机到集群的演进升级后,对存储与算力间的交互能力提出了更高要求,存储介质、存储访问、互联交互、系统架构等多个维度均在发生变革。作为大模型推理应用落地的关键环节,大模型推理对于“更多数据、更大模型规模、更长上下文窗口”的需求,是实现更高效人工智能应用的核心支撑;而如何在存储系统中兼顾容量、性能、成本等多重因素已成为必须突破的复杂工程问题。结合实际应用场景,以算代存、以存替算两种发展模式均已具有优化实践。
整体而言,当前业界已就“算存需协同发展”达成初步共识,但具体实现机制及演进路径仍处于探索阶段。因此,研究大模型推理驱动下的算存协同发展,对于提升算力中心的资源利用率、降低服务延迟与总拥有成本(Total Cost of Ownership,TCO)、提高落地应用成效具有至关重要的意义。本文系统研究大模型推理对数据存储提出的新要求,结合当前底层计算平台的特性和能力,提出现阶段智算集群在支撑大模型推理时所面临的新挑战,并对算存协同的进展进行对比分析;在此基础上,对算存协同的未来重点发展方向进行了展望。
1 大模型推理对存储系统的总体要求
随着大模型的快速发展,除大规模数据、高速输入/输出(Input/Output,I/O)等基础需求外,其在生成任务时更强调以逻辑推理、规划、分解等复杂、多步方式解决问题的能力,使得算存协同在实际部署中面临更为复杂、严峻的挑战。大模型推理所需的存储系统是针对不同需求优化的复杂混合架构。模型加载过程属于一次性、大规模顺序读取活动,需要高带宽的存储支撑服务快速启动或更新;在多轮次推理交互过程中,需同时实现上下文检索和缓存实时查询所需的算存交互,以保证推理过程的低延迟和智能对话。
1.1 模型权重要求巨大的静态容量
大模型推理的前提是模型参数(权重)完整加载至显存,这构成最基础的存储挑战。随着模型参数规模的快速增长,容纳数十亿甚至万亿参数的大模型需占用很高的存储容量。例如,采用FP16精度加载70 B参数的模型时,至少需占用140 GB的显存,需2~4张英伟达主流图形处理器(Graphics Processing Unit,GPU)计算卡才能承载[1]。为降低模型权重对显存空间的占用,可采用INT8/INT4等量化技术,该技术需底层计算硬件支持低精度计算,且精度损失可能导致一定的模型能力损失;权重卸载也可在一定程度上解决静态显存空间不足的问题,但对中央处理器(Central Processing Unit,CPU)与GPU间的PCIe带宽提出极高要求,否则交换过程将成为性能瓶颈。
1.2 推理加速场景递增的键值缓存
当前大模型推理(尤其是长上下文场景)中,序列长度的增长导致键值(Key-Value,KV)缓存所需内存空间呈线性增长,成为存储系统的核心瓶颈,具体体现在3方面。一是巨大的存储容量需求,基于Transformer架构的大模型,KV 缓存峰值所需存储空间大致可通过公式“同时处理序列数×当前上下文长度×2×模型层数×每层注意力头数×注意力头维度×参数占用字节数”进行计算。以LLaMa-7B模型(BF16精度)推理为例,仅KV 缓存一项便需占用超过17 GB的显存[2]。二是极高的内存带宽,注意力(Attention)机制在生成每个tocken时,需读取全部KV 缓存计算与当前查询的注意力分数,该操作属于典型的内存带宽受限操作,即计算量本身不大,瓶颈在于从显存中读取KV 缓存数据到计算单元(如Tensor Cores)的速度,目前以GPU为代表的人工智能(Artificial Intelligence,AI)芯片广泛应用的高带宽存储器(High Bandwidth Memory,HBM)技术(如H100的3.35 TB/s带宽)正是为了应对此类需求。三是极低的访问延迟,串行生成过程导致任何一步对KV 缓存的读取访问延迟,都会直接增加生成每个token的时间,因此存储KV 缓存的介质必须具有极低的访问延迟,这也是与CPU内存、NVMe 固态硬盘(Soild State,SSD)相比,HBM(与AI芯片计算核心紧密集成)显存成为当前主流选择的核心原因。
此外,大模型推理还会采用更复杂的数据交互与多步中间计算。例如,DeepSeek采用的多层聚合器(Multi-Level Aggregator,MLA)架构[3]。区别于“一次性输入所有上下文、直接生成答案”的传统模式,通过采用多层KV 缓存机制实现对不同粒度和阶段历史信息的存储与调用,进而达到更灵活的CoT,并极大减少访问延迟和重复计算。但MLA架构在推理过程中会多次读取前序中间表征(如上一阶段键值或上一个层级键值),带来更为频繁的历史信息引用,需要兼顾高并发、低延迟的数据读写模式,保证管理、缓存与交换信息的灵活性,以提升推理效率与可控性。
1.3 多用户请求带来的高并发负载
实际应用场景中,推理服务器需同时处理多用户、不同序列长度的请求,高并发下的动态内存管理成为工程实现的核心难题。传统NVIDIA CUDA框架的cudaMalloc等显存分配器,无法高效处理此类“大量、小块、生命周期多样”的内存分配请求,易导致显存碎片化,即显存总量充足,但无法分配出所需的连续空间。因此,通过创新内存管理、调度和优化技术提升请求吞吐量并降低延迟,成为高并发负载下大模型推理内存管理的关键方向。
2 大模型推理围绕算存协同的主要探索
当前大模型推理的核心矛盾在于:AI芯片的计算速度要远大于数据从存储加载到内存的速度,这也是 “冯·诺依曼”计算体系的关键瓶颈所在。当前大模型推理普遍采用分级存储理念,而如何根据动态变化的推理请求负载,将计算任务、模型权重、KV 缓存数据等实时调度至最优计算和存储单元上,属于复杂的系统级问题。现阶段业界围绕“以计算代存储”和“以存储换计算”两大方向,开展多层面创新探索。
2.1 以计算代存储
核心思路是通过动态、重复的计算来解决存储容量或读取效率不匹配的问题,尤其针对大模型推理应用过程中所需的中间过程存储。该思路的极端方式是无状态推理,即不为任何情况保存状态,每生成一个tocken都需要将整个历史对话上下文作为输入再次发送给推理服务器并进行完整计算。无状态推理虽然可以极大简化内存管理、调度和缓存机制的设计,但会带来计算量的平方级增长和网络带宽的极大消耗,不具备大规模生产应用的可操作性。
与之相对,通过不同的策略进行选择性重算则更具备部署的可操作性,目前主要有两大方向的选择策略。一是基于稀疏化的选择性重计算。该策略的理念基于“大部分Attention计算具备稀疏性”的特性,仅保留关键KV 缓存,必要时重算被丢弃的非关键部分,进而实现对整体模型推理的需求。如可将Attention视为一个“流式高频项发现问题”,只保留Attention分数最高的Top-k个token的KV 缓存,经验证,该策略在仅保存20%~50% KV 缓存的情况下,可在多种任务上维持极小的模型性能损失[4]。二是基于量化的近似计算。该策略不追求精确重算,通过低成本、低内存消耗的近似方式“模拟”或“恢复”被丢弃的KV 缓存。如最直接的基于精度的量化方式,通过将KV 缓存从FP16/BF16量化到INT8,可将KV 缓存内存占用减少50%甚至更高[5]。
2.2 以存储换计算
该思路强调在后续大模型推理应用过程中,存储要转变以往被动保存数据的定位,变为主动参与计算、提升计算效率,这有益于提升整体推理效益、降低延迟和成本[6]。为使存储在整体计算系统中发挥更多的主动性,可以考虑从存储架构、管理策略、存储介质三大方面开展创新研究。
存储架构创新方面,可通过系统级创新实现体系架构重构的目标。如华为的OceanStor A800 AI 存储产品,融合了针对AI存储场景定制的AI SSD、主控Hi1812芯片、FlashLink 3.0智能盘控技术、统一缓存管理器(Unified Cache Manager,UCM)等软硬件技术,基于长记忆内存新范式,使推理时延降低78%,单个xPU卡的吞吐量提升63%[7]。
管理策略方面,主要通过软件和算法优化数据路径与管理策略,并与硬件协同实现性能最大化释放。如当前大模型推理服务的事实标准vLLM[8],借鉴操作系统的虚拟内存和分页思想实现KV 缓存管理,通过将KV 缓存在物理上划分为固定大小的块,允许一个序列的KV 缓存非连续存储,基本解决了内存碎片化问题。这使得同一份显存可以服务更多的并发请求,显著提升了存储空间的利用率,并在相同硬件下提升了吞吐量。此外,通过优化存储的数据结构和布局(如分块技术[9]),可提升读取速度,优化Attention计算过程中与GPU各级存储(HBM、静态随机存取存储器(Static Random Access Memary,SRAM))的数据流动策略,充分利用高速存储弱化低速存储(HBM等)的访问延迟影响。
存储介质方面,除不同层级存储随着工艺升级而不断提升容量和I/O速度外,从近存计算、存算一体的角度出发重构传统的“冯·诺依曼”架构,实现“数据不动、计算动”,消除数据搬运的功耗和延迟,也成为业界探索的重要方向。现阶段存算一体架构的相关产品基于具体的工艺实现及技术理念,多数仅在端侧和边缘场景有所实践和应用,但其思想对集群设计也具有一定启发,有望对现有计算与存储的关系实现革命性创新。如探索将内存池节点与计算节点分离,CXL3.0研究构建由GPU HBM、CXL DDR、CXL 持久内存、CXL SSD组成的分层异构内存系统,并实现系统可根据需要自动、透明地将数据(KV 缓存、模型权重)迁移到最合适的存储层级中,实现真正的内存共享,可支撑将KV 缓存或部分不常访问的模型层放置在由CXL连接的共享内存池中,有助于后续实现内存分解架构推理集群的构建,实现计算和存储资源的独立弹性扩展[10]。
3 算存协同发展将是计算体系变革的长期探索方向
对于目前广泛应用的现代经典计算体系而言,计算与存储的协同关系(解耦或紧耦)需从多技术维度分析。综合前述分析及产业基础,在大模型推理场景下,未来较长时期内,根据访问延迟和带宽需求所构建的分层、体系化协同存储模式,将成为算存协同的核心演进方向。
从“解耦合”的必要性角度来看,成本、灵活性、可扩展性等多重因素共同决定了分层存储体系仍为首要选择。在计算单元内部,Tensor Core等计算核心需要在一个时钟周期内多次访问SRAM,二者需采用物理紧耦合模式,通过芯片级的超高速内部总线保证高速计算吞吐量。在计算设备内部,如HBM通过硅中介层、CoWoS(Chip on Wafer on Substrate)等2.5D/3D封装技术与GPU芯片紧密封装,其访问延迟和带宽远优于传统PCIe连接,可实现在提供远高于SRAM存储容量的前提下也具备较高的访问效率,这也是目前为保证大模型推理应用服务效率,KV 缓存需在HBM实现存储的主要原因。在计算节点内,同一台服务器的多个GPU、CPU与GPU间通过采取基于高速互联、延迟可控的解耦机制,以高速互联实现单点显存不足的扩展需求,如基于NVLink或PCIe 5.0将CPU内存作为“慢速池”的扩展实现。在跨节点或者云节点层面,基于解耦的可独立扩展是重要的前提,通过智能缓存、预取策略等弥补解耦带来的延迟和带宽劣势是重要的探索工作。从“紧耦合”的重要性角度而言,随着大模型的不断发展和深化应用,大模型推理的延迟问题愈发严峻。理论而言,生成过程中每个token都需要读取整个KV 缓存,毫秒甚至秒级的网络延迟与微秒级的计算延迟、GB级的网络带宽与数百GB甚至TB级别的KV 缓存访问带宽需求存在数量级差距,此类延迟和带宽敏感数据,必须采用与计算单位紧耦合或者高度协同的方式进行存储。
整体而言,大模型推理需要更高容量、更低延迟、更高带宽以及更优能效的存储,通过构建基于数据访问特征的、持续升级的动态协同分层存储架构,通过软件、调度和高速互联,在物理解耦的硬件上实现逻辑上的紧耦合将是长期演进的主要路径。
4 结束语
算力作为数字经济时代的核心生产力,对推动技术产业进步、加速数字技术与实体经济深度融合发挥着重要作用,其地位和支撑性作用愈加凸显。全球算力规模持续高速稳定增长,尤其大模型使用的数据量和参数规模进一步增加,进一步带来智能算力需求的爆炸式增长[11]。近年来,业界对于各类AI芯片、大规模智算集群的研究和创新不断,在单芯片以及集群算力规模持续快增的同时,现代经典计算架构所带来的“存储墙”问题日益凸显,且受限于存储能力增长要慢于算力,存储瓶颈已成为制约算力能力发挥的关键,算存如何匹配发展愈发成为需重点考虑的问题。尤其大模型推理需要更复杂的数据交互与多步中间计算,更要求从算存协同的层面实现针对性的优化。算存协同是涉及到软硬件全栈全体系的系统工程,目前各个层面基于提高读取效率、减少数据搬运、降低存储需求等内容均有相应的技术实现和优化方案,也对打破现有计算技术体系、分布式系统、网络通信等各个领域的壁垒提出了更高要求。本文从“以计算代存储”和“以存储换计算”两个维度对当前算存协同的相关研究和实践进行系统分析,结合实际的技术产业基础和应用需求,提出基于分层、体系化协同存储模式进行系统融合创新更具可行性和必要性。除实现理念、重点技术和应用实践外,算存协同在基础理论、标准体系、互联规范等方面也涉及大量需进一步探索和研究的重要内容,相信相关领域的持续进展和突破也将会积极推动大模型推理能力的进步。



