摘要:在生成式人工智能大模型爆炸式发展背景下,智能计算的重要性日益凸显。当前千亿、万亿级参数大模型在海量数据训练过程中,对智能计算在芯片算力、内存容量、互联速率等方面提出更高要求。从支持大模型创新发展需求入手,重点从芯片技术、软件技术、互联技术等维度分析智能计算技术发展态势和产业发展现状,结合当前产业发展面临的机遇与挑战,提出未来智能计算发展策略。
关键词:智能计算;人工智能芯片;高速互联;人工智能
0 引言
以ChatGPT、Sora等大模型为代表的人工智能(Artificial Intelligence,AI)应用掀起模型算法竞赛浪潮,模型参数量持续突破万亿,训练数据量突破万亿Tokens(文本中的最小单位),对支撑大模型训练和推理的智能计算技术体系提出更高要求。高算力、大内存的计算芯片,支持分布式计算框架的系统软件,大带宽、无损网络的计算互联网络成为驱动智能计算技术发展的关键。本文重点对智能计算发展背景、核心技术发展态势、产业现状与挑战等进行研究,以期为智能计算技术产业发展提出建设性意见。
1 智能计算发展背景
规模定律(Scaling Law)持续驱动大模型参数量、训练数据量屡创新高。基于Transformer架构的预训练AI大模型为迈向通用AI时代提供了可能,OpenAI公司GPT-3.0、GPT-3.5、GPT-4等大模型每次迭代参数规模提升10倍以上,参数量实现了从亿级到万亿级的突破,模型训练数据量从GB增长到TB级别[1],大模型应用场景已覆盖文生文、文生图、文生视频等多模态任务。结合规模定律分析,未来伴随模型参数量、训练数据量、训练算力的进一步扩增,大模型性能还将持续突破[2]。
芯片、软件、互联成为智能计算技术体系发展的重要特征。2003—2023年模型算法需求增长百亿倍[1],与单一芯片性能增速差距逐年拉大,以通用图形处理器(General-Purpose Graphics Processing Unit,GPGPU)、特定领域架构(Domain Specific Architecture,DSA)等智能计算芯片为中心的计算架构凭借算力协同、内存池化等技术逐步成为大模型计算主体,通过多卡算力堆叠、软硬件协同技术创新等方式满足大模型智能算力激增要求。千卡、万卡计算芯片构建的智能计算集群成为千亿、万亿级参数大模型训练的标配。Meta公司官网数据显示,Meta公司使用2.4万张H100加速卡、超15万亿Tokens数据完成千亿参数大模型Llama 3的训练,训练数据量是Llama 2使用的7倍以上[3]。
2 智能计算核心技术发展态势
智能计算通过聚合多元、先进的计算芯片、软件等产品,调用丰富的模型算法,完成千行百业各类数据处理任务。当前亿级参数大模型在海量数据训练过程中,对芯片算力、内存容量、互联速率等方面的要求与传统大数据计算存在明显区别。芯片、软件、互联网络共同组成智能计算核心技术要求。
2.1 芯片技术
智能计算芯片围绕大模型特性推进产品架构设计和创新优化。作为大模型计算的基石,智能计算芯片从扩展计算精度范围、提升专用计算单元性能、保护安全计算等方面提升大模型支撑能力。在计算精度范围方面,在FP32(32位浮点格式)、FP16(16位浮点格式)等基础上,进一步增加FP8(8位浮点格式)等低精度的支持。通过降低计算精度,减少模型参数内存占用大小,加快数据加载和传输速率,从而加快训练和推理速度。在专用计算单元性能方面,针对Transformer架构算法构建专门计算引擎,对计算过程输出值域范围,动态调整浮点计算精度,实现计算加速[4]。在安全计算方面,芯片架构中内置用于监测并预测芯片运行状态的安全引擎,利用AI技术进行预防性维护和监测,确保芯片工作时的连续性和高效性。
芯片增大内存容量以满足大模型存储和数据传输要求。智能计算芯片内存容量增速低于大模型参数扩增速度,高带宽存储器(High Bandwidth Memory,HBM)备受智能计算芯片存储企业青睐,业界部分高算力芯片均使用HBM作为存储介质,多数芯片内存容量突破100 GB[5]。HBM通过硅通孔技术(Through Silicon Via,TSV)封装方法垂直堆叠多个动态随机存取存储器(Dynamic Random Access Memory,DRAM)芯片,实现与计算芯片单元的合封,相对传统的图形双倍数据速率(Graphics Double Data Rate,GDDR)同步动态随机存取存储器(Synchronous Dynamic Random Access Memory,SDRAM)、低功耗双倍速率(Low Power Double Data Rate,LPDDR)SDRAM等内存,具备可扩展大容量、低功耗优势。可扩展容量方面,通过4层、8层、12层堆叠的DRAM芯片实现更大的存储容量,业界积极探索使用混合键合技术实现16层DRAM芯片堆叠,应用于HBM4大规模生产中[6]。功耗方面,采用TSV和微凸块技术后,DRAM裸片与处理器间实现较短的信号传输路径以及较低的单引脚I/O速度和I/O电压,使HBM具备更低的内存功耗能效特性。
以GPGPU、DSA为代表的智能芯片成为当前支撑大模型计算的主角。GPGPU芯片架构在单指令多线程(Single Instruction Multiple Threads,SIMT)、图形计算功能基础上,增加完成矩阵运算的专用执行计算单元,实现全应用场景能力输出;采用芯粒设计方案,通过异构集成小面积芯片,降低晶圆缺陷对良率的影响,突破单颗芯片的面积制约,已成为业界设计大算力芯片的优先技术方案[7]。DSA芯片针对特定模型算法设计芯片架构,算效比优势明显[8],并伴随模型算法改进芯片架构设计以求计算性能突破。针对Transformer模型算法中大量矩阵乘法运算,构建矩阵乘法单元、向量单元、标量单元等进行并行计算。GPGPU和DSA架构芯片区别见表1。
表1 GPGPU和DSA架构芯片区别
2.2 软件技术
深度学习框架注重模型算法的高效开发及优化,强化对大模型训练的支持。深度学习框架是模型算法高效开发的入口,结合不同层功能定位(见图1),通过在编程开发层、编译优化层、硬件使能层体系化优化支持不同开发语言、不同硬件的模型算法高效开发。深度学习框架前端编程开发方面,需支持业界开发语言如C++、C#、Java等,同步提供配套的编程接口。AI框架编译优化方面,一是通过动态图编程范式,灵活完成模型训练过程,提升模型开发效率;二是通过静态图实现模型部署时的高性能运行;三是通过动态图转静态图的方式,实现模型部署和性能优化。硬件使能方面,构建统一适配接口(包括算子适配接口、设备管理接口、分布式通信层接口等)以支持不同硬件厂商适配,避免芯片厂商面对多种框架重复进行适配代码的开发。大模型训练支持方面,通过支持数据并行、模型并行、流水并行、优化器并行、子图并行等多种维度并行计算技术,解决模型及集群的横向扩展问题,支持将超大规模模型切分到不同计算单元进行高效训练,并实现最优的计算通信比。
图1 深度学习框架架构图
大模型算子开发的完备性直接影响计算系统算力的有效发挥。业界厂商在自研芯片基础上开发特定领域算子,种类覆盖深度学习、图形渲染、科学计算等领域,同时联合应用企业共建专用算子,提高算法运行效率。在算子生态封闭、算法多元化趋势下,芯片厂商针对芯片特性开发自有算子,造成算子接口互异,在各芯片厂商间无法通用,算子开发难度大。以Hugging Face Transformers库推理LLaMA-7B模型为例,其包括30个类型共计2 436个算子[9],算子种类的完备性直接影响智能计算芯片的利用率,进而影响训练和推理速度。业界积极探索建立标准算子接口用以构建统一算子,算子接口分为基础数学操作、神经网络操作、机器学习操作和其他AI操作等,算子接口标准分类见表2[10]。标准算子接口体系包括统一算子接口、函数签名以及一致性测试套件,要求逻辑简单、易阅读、易扩展,与标准接口定义保持一致,具有可移植性和强适用性,提供一致性的错误处理机制,支持主流深度学习框架和应用模型。
表2 算子接口标准分类
2.3 互联技术
卡间互联技术高速外围组件互联接口(Peripheral Component Interconnect Express,PCIe)速率瓶颈显现,企业自研互联技术方案以支持高速数据传输。PCIe作为中央处理器(Central Processing Unit,CPU)与加速卡、加速卡与加速卡间主流通信协议,通过PCle插槽完成连接,相邻两张加速卡间可通过桥接器直连,但其余加速卡连接需通过CPU PCIe通道路径,PCIe成为直接影响多卡互联速率的重要卡点。随着AI大模型的快速发展,加速卡间通信的数据量激增,仅仅通过PCIe通信已经无法满足超大规模深度学习模型的通信需求,同时单张加速卡的功耗随算力提升逐代增加,PCIe物理形态加速卡在功耗和散热方面瓶颈凸显。芯片企业自研互联技术方案,并推出新型物理形态加速卡产品。互联技术方案方面,如表3所示的NVLink技术升级,设计全新高速串行通信技术,通过增加链路数量、提升每条链路双向带宽等方式提升互联带宽[11]。新型物理形态加速卡方面,重新定义加速卡基板主机接口、供电方式、散热方式、管理接口、卡间互连拓扑等,目前国际开源组织开放计算项目(Open Compute Project,OCP)发布了开放加速器基础设施(Open Accelerator Infrastructure,OAI)-通用基板(Universal Baseboard,UBB)1.0设计规范[12],已有AMD、英特尔等企业推出OAM形态高速互联加速卡产品。
表3 NVLink技术升级表
无限带宽(InfiniBand, IB)网络凭借高稳定性、低时延等特点,成为大模型算力集群主力技术方案。AI大模型训练对计算网络提出大规模组网和高性能节点通信要求,其中集群中芯片间内存编址互不相同,是阻碍数据互访的关键。在缓存一致性的基础上,通过高速网络和总线构建的多层次高速互联,能够支持芯片间内存直接互访,减少CPU参与,实现数据的高效搬移。高速网络方面,IB、RoCEv2、iWARP等高速网络技术能够用于实现远程直接数据存取(Remote Direct Memory Access,RDMA)功能,结合GPUDirect技术使芯片直接跨服务器读取远端服务器上的芯片内存[13]。其中,IB网络技术具有稳定性高、低时延等特点,英伟达基于IB标准,形成了包括网卡、数据处理单元(Data Processing Unit,DPU)、交换机、路由器等在内的产品生态闭环,IB网络使用成本较高;RoCEv2和iWARP技术基于以太网,能够兼容以太网交换机,具有成本低的优势。
大模型计算中东西向流量占比提升,驱动脊叶架构成为服务器间网络组网架构的主流技术方案。在大规模训练并行计算任务中。数据中心服务器之间需进行大量的数据同步与更新,服务器间东西向流量占比已超80%[14],具备易扩展、扁平化、数据源到目标路径较短的脊叶架构成为主流技术方案。脊叶架构采用叶交换机、脊交换机二层架构设计,其中叶层接入交换机并下挂AI服务器,脊层负责连接所有接入交换机[15]。带宽利用率方面,每个叶交换机的上行链路以负载均衡方式工作,充分利用带宽,同时叶交换机之间的连通路径的条数可确定,均只需经过一个脊交换机,东西向网络时延可预测。拓展性方面,当带宽不足和服务器数量增加时,均可通过增加脊交换机数量的方式,扩展带宽和扩大数据中心规模。
3 智能计算产业现状与挑战
3.1 智能计算产业发展现状
芯片巨头全栈式布局面向大模型应用的智能计算产品。结合大模型训练和推理应用场景算力需求,英伟达、AMD、英特尔等企业加快智能计算产品端到端体系化布局。英伟达在迭代提升GPGPU芯片性能优势的同时,向CPU、服务器系统、云平台等上下游产品渗透,2024年新发布的GB200超级芯片、DGX B200系统和面向万亿参数的生成式AI超级计算机DGX SuperPOD进一步为大模型训练提供算力动能。AMD强化CPU+GPU双芯片战略布局。CPU方面推出内置XDNA架构AI计算引擎的端侧芯片锐龙8040,AI引擎模块包括矢量处理器、标量处理器以及本地数据和程序存储器,可以脱离网络和云端在本地执行大模型推理任务,当前搭载锐龙8040的AI PC已出货。GPU方面基于CDNA 3架构的训练芯片MI300A和MI300X已批量出货,以抢占大模型算力市场先机。英特尔凭借高性能计算优势领域,加快布局大模型训练推理芯片,2024年4月发布的Habana Gaudi 3芯片中增加矩阵计算单元、张量计算单元数量,大幅提升芯片算力值,内置RoCE以太网控制器,实现服务器节点内、节点间的高速连接,具备构建可支持千亿参数大模型训练的计算集群能力。
云计算厂商加速自研芯片在自有大模型业务场景的落地使用。谷歌公司、微软公司等依托云计算优势向底层芯片渗透。谷歌公司历时多年持续迭代自研TPU产品,2023年专为Transformer架构大模型训练和推理任务设计的产品TPU v5e、TPU v5p,通过构建百卡、千卡集群完成自研大模型Gemma的研发。微软公司于2023年底发布人工智能Maia 100芯片和云计算Cobalt 100芯片,已在Bing和Office AI产品上完成测试。然而,从实际应用来看,云厂商仅在有限的特定算法场景中使用自研芯片,多数企业仍需采购上万块英伟达加速卡用于大模型研发和对外提供稳定、可靠的高性能智能算力服务。
凭借对大模型算子和开发框架支持,英伟达通用计算设备架构(Compute Unified Device Architecture,CUDA)生态壁垒深筑。英伟达凭借多年来对CUDA上百亿美元的资金投入和深厚积累,使其在软件工具成熟度、生态布局覆盖面、应用探索布局等方面均具备优势。软件工具层面,CUDA发布以来,累计十余次版本迭代,构建覆盖通用计算、AI计算等全领域算子库种类,主流深度学习框架TensorFlow、PyTorch均深度整合CUDA,开发者可以高效利用英伟达硬件加速大模型训练和推理过程。生态布局层面,全球有超过百万开发人员依靠英伟达的CUDA软件平台构建AI及其他应用程序[16]。应用探索层面,英伟达参与OpenAI等大模型企业研发历程,结合模型算法演进同步更新芯片架构设计;同时作为人工智能领域基准测试标准MLPlerf工具的核心参与者,引领评测标准及芯片技术发展。
计算厂商自建面向大模型计算的高性能AI服务器网络集群底座。千/万卡互联集群需经过硬件层、网络层、软件层定向设计和优化,才能发挥出集群的整体算力。大模型胖树网络架构已定型,网络层中通信库和集群资源管理是关键。集群网络通信库方面,英伟达通信库NCCL提供包括all-gather、all-reduce、broadcast等例程,支持PCIe和NVLink高速互联网络;微软公司推出支持多加速器执行集体通信算法的通信库MSCCL,重新设计在网计算的资源分配,加速了AI训练和推理中的通信过程。集群资源管理方面,英伟达推出服务于自有服务器产品的NVIDIA Base Command管理软件,支持大模型工作流程管理、集群资源管理及深度优化的算子库等,进一步释放硬件算力性能。Meta公司推出分布式存储资源管理软件Tectonic,支持数千个加速卡在训练推理过程中同步保存和加载数据,确保大模型训练和推理过程的稳定性和可靠性。
3.2 智能计算产业发展挑战
智能计算关键技术体系化创新迫在眉睫。未来智能计算不再是单一技术突破,而是围绕芯片、软件栈、互联等核心技术协同创新与并行开发。芯片方面,强化人工智能计算单元能力,通过针对不断演进的大模型算法设计特定芯片架构,构建成本低、能耗低、性能强、应用广的芯片架构体系,以满足云侧、端侧等不同应用场景的计算需求。软件栈层面,实现深度学习框架、软件栈与底层硬件深度协同,最大限度发挥智能计算芯片性能潜力,降低应用开发者算法创新门槛。互联层面,持续向百卡、千卡、万卡大规模算力集群构建突破,卡间和节点间的互联网络、并行训练框架、资源调度等系统技术的突破是提升集群有效算力的关键。
各厂家软件栈工具互不兼容,应用企业开发成本高。智能计算芯片企业围绕自身芯片构建相应的工具链,各厂家API接口各不相同,无法通用。英伟达CUDA仅能用于英伟达GPU芯片,虽然具有较好的效果和最大的市场份额,但CUDA闭源发展思路不利于技术生态形成合力。AMD推出ROCm开源软件平台,提供编译器、算子库和编程语言等工具,支持AMD的芯片以及x86和ARM架构的CPU处理器,可实现CUDA到ROCm的迁移,但迁移效率仍不高。对应用企业而言,开发应用时需针对不同厂家GPU硬件以及软件栈工具编写程序,开发重构繁复,无法跨架构流转和互识,开发维护成本高。
性能评价无统一标准,无法有效指引技术产品发展方向。目前,产业界尚无针对智能计算芯片的统一衡量标准,芯片性能评价维度不一,各厂商独立研发测试工具或选用国际主流测试结果以表征性能。部分企业选用MLPerf作为性能测试方法,涵盖图像分类、目标物体检测等内容,将与英伟达同类产品指标对比作为性能表征。多数企业自研基准测试工具,从速度、功耗、准确度、线性度、显存占用、稳定度等维度构建系统性测评体系用于开展芯片测试。同时,现有测试方法多采用单芯片测试,与实际应用中数千张甚至数万张芯片高速互连共同运算的计算环境差异较大,导致单卡多数测试指标无法线性叠加后应用在集群测试中,测试结果参考价值较为有限。
4 结束语
智能计算通过芯片、软件、互联等技术的体系化升级,为大模型研发提供强有力的高效算力支撑。从智能计算技术现状与产业发展挑战来看,建议重点从以下几个方向推动相关领域创新布局。一是持续推动高算力芯片、高速互联等技术研发,强化编译优化、运行时等软件栈技术迭代升级。二是探索开源软件发展路径,推动深度学习架构、编译器、算子库等开源发展,吸引开发者繁荣生态,加速算子收敛,推动大模型算法跨平台的快速迁移。三是强化应用牵引,选定互联网、金融、教育等重点行业,鼓励智能计算创新技术和产品应用落地,共创智能计算产业化应用与生态繁荣。