基于OISA架构的GPU共享内存访问技术(下)

作者:李锴 钟旭霞 责任编辑:包建羽 2025.05.28 10:45 来源:中移智库

随着人工智能特别是大模型的飞速发展,对计算能力的需求呈指数级增长,推动了计算架构从单GPU节点向大规模异构集群的演进。在此背景下,系统性能瓶颈已从GPU内部计算转向多处理器间的数据交互效率,即“通信墙”问题。传统的互连技术难以满足现代AI工作负载对高带宽、低延迟的极致要求。为应对这些挑战,全向智感互联OISA(Omni-directional Intelligent Sensing Express Architecture)应运而生。OISA是一种旨在突破通信瓶颈的开放式GPU互连架构,其核心特点是原生支持共享内存语义,通过将通信操作抽象为GPU标准的内存读写和原子操作,并结合统一总线寻址(UMA)以及硬件与软件栈协同的地址转换与一致性维护机制,致力于简化并行编程,提高带宽效率并降低通信延迟。本文将深入剖析高效GPU间通信的必要性,阐述GPU的内存层次架构与通信语义基础,详细介绍OISA协议原生支持内存语义的核心要素,其支持先进的GPU内存管理抽象技术(如固定内存、统一虚拟寻址、按需页面迁移和设备自主内存管理)。最后,总结OISA的价值主张及其对未来高性能计算和AI硬件生态系统的潜在影响。

OISA的GPU内存管理抽象

固定内存技术

固定内存(Pinned Memory)是一种将虚拟内存页面锁定在物理 RAM 中的技术,这可以防止操作系统将这些页面交换到磁盘。在GPU环境中,使用固定内存对CPU与GPU之间的数据传输,这样做可以避免数据从可分页内存到固定暂存缓冲区的一次额外拷贝,从而允许 Memcpy() 或等效的API直接在主机固定内存和GPU显存之间进行ODMA传输,以期提升传输带宽并降低延迟。

更进一步,固定内存是实现GPU直接访问远端内存高级功能的基础。固定内存区域也可以被GPU设备代码直接访问,有时无需显式的拷贝调用,这便是常说的“零拷贝”内存访问,它在概念上模糊了固定内存与零拷贝内存之间的界限。在OISA构建的超节点架构中,其物理层采用的高速SerDes技术实现了多芯片间的对等互联。当这种互联与固定内存技术配合使用时,能够降低跨节点数据传输延迟,为大规模集群的协同计算提升效率。OISA可以利用固定内存机制,为跨其互连架构的GPU间直接内存访问提供高效的低延迟路径。

统一内存地址(UMA):构建单一逻辑内存视图

关于统一内存地址(UMA)技术,其核心概念是为系统中的所有内存,包括主机内存以及单个或多个GPU的设备内存,提供一个单一的虚拟地址空间。在GPU核心代码中,指针可以直接被访问和解引用,无论其指向的物理内存实际位于系统的哪个位置(例如当前GPU的显存、另一个GPU的显存)。UMA的应用还使内存拷贝函数在调用时更为灵活,无需严格指明源和目标内存的具体是主机还是设备侧。在此基础上,OISA的事务层设计支持多种内存访问模式,其数据层通过智能流量调度机制,能够无缝适配统一地址空间带来的复杂访问需求。在超节点服务器部署场景中,OISA通过UMA能够有效解决国产AI芯片在互连规模受限方面的难题。

UMA 也是实现“零拷贝”内存(即GPU核心代码直接访问固定主机内存)的前提条件。需要区分的是,UMA 本身只负责地址的统一和映射,并不负责数据的自动迁移;而统一内存(Unified Memory, UM)则是在 UMA 的基础上,增加了按需自动进行数据页迁移的功能。通过提供单一的地址空间,UMA 极大地简化了异构系统中的编程模型,使得开发者可以更容易地在多个GPU之间共享复杂的数据结构,减少了显式数据暂存和地址管理的负担。

image.png

图4.GPU卡间贡献内存访问示意图

按需页面迁移:实现动态数据驻留优化

按需页面迁移技术允许数据页面在系统的不同物理内存位置之间,例如主机RAM与GPUVRAM之间或不同GPU的VRAM之间,按需自动迁移。机制原理通常是当处理器尝试访问一个当前未驻留在其本地可访问内存中的页面时,会触发一个页面错误(Page Fault),随后硬件和系统软件协同工作,将所需的页面从其当前位置迁移过来,通过按需分页和页面替换来解决内存超额订阅问题,并减轻程序员手动划分工作集和迁移数据的负担。在此基础上,OISA的多语义融合技术将内存访问指令与数据传输协议深度绑定,再配合数据层的智能流控机制,使得页面迁移过程能够可感知计算任务特征,从而实现智能化管理。

这种智能化的按需页面迁移在大模型训练场景中可进行使用,尤其在处理具有细粒度通信需求的MoE混合专家模型时,系统能够根据计算任务的访存模式和通信需求自动优化数据页面的驻留位置,以此降低跨GPU的访存延迟。高效的按需分页机制对于在复杂系统中最大化内存利用率和性能有所帮助。

在OISA面向未来的智能化内存管理中,正朝着智能化方向发展。通过结合引入“流量感知标签”并利用“集合通信加速技术”实现计算任务与数据传输之间的动态匹配和协同优化。这种设计理念与异构内存管理技术的发展方向高度契合。在支持多模态大模型的训练时,系统就可以具备自动识别计算热点区域的能力,并通过预取(Prefetching)等机制优化数据在分布式内存中的布局,从而提前将所需数据加载到离计算单元更近的内存层级。这代表了一种软硬件协同的创新模式,为突破传统架构的带宽瓶颈和内存访问延迟提供了全新的解决方案。

OISA内存语义方向的未来展望

OISA的价值主张回顾

全向智感互联OISA作为一种新兴的GPU间互联协议,其核心价值在于通过支持原生支持内存语义并可兼容支持消息语义,致力于解决当前AI和HPC集群中日益严峻的通信瓶颈问题。随着模型规模的持续膨胀和计算模式的日趋复杂,数据交互的效率已成为制约整体性能的关键。OISA通过将通信操作抽象为底层的内存访问指令,并辅以统一总线寻址、硬件级一致性支持、低延迟前向纠错以及先进的内存管理技术,旨在简化并行编程模型,降低通信延迟,提升系统吞吐量。

OISA以内存为中心设计的意义

OISA选择以内存为中心的设计范式,特别是对原生共享内存语义的支持,对于处理复杂且需要紧密耦合的GPU工作负载,这种方法有望:

(1)简化并行编程:开发者可以使用熟悉的加载/存储/原子操作模型来处理跨GPU的数据共享和同步,而不必显式管理复杂的消息传递逻辑,从而提高开发效率。

(2)提升性能与效率: 通过硬件层面的优化(如UBA、硬件一致性、低延迟FEC)和智能化的内存管理(如任务感知的按需页面迁移),OISA力求减少软件开销,实现更细粒度的交互和更高的数据传输效率。

对HPC和AI硬件生态系统的潜在影响

全向智感互联架构OISA正在对高性能计算和人工智能硬件生态系统产生深远影响。一是OISA协议的开放性有望打破当前高性能 GPU 互连封闭的局面,为用户提供优质选择,并激发技术创新,尤其是在国内AI产业中,有望催生更繁荣的自主硬件生态。二是OISA对原生共享内存和大规模硬件一致性的探索,会影响未来 GPU、AI加速器以及相关交换芯片的设计理念,推动业界更加重视在硬件层面支持高效的分布式共享内存模型。此外,OISA协议在可扩展一致性机制、智能内存管理、光电融合互连等方面的实践,会为学术界和工业界在这些前沿领域的研究提供新的思路和方向,驱动相关领域的进一步发展,为我国新质生产力的能力提升提供中国方案。

通信世界网版权及免责声明:
1、凡本网注明“来源:通信世界全媒体”及标有原创的所有作品,版权均属于通信世界网。未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载我方内容的单位,也必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和本站来源。
2、凡本网注明“来源:XXX(非通信世界网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的,请在相关作品刊发之日起30日内进行。
发表评论请先登录
...
热点文章
    暂无内容