通信世界网消息(CWW)近日,据外媒报道,三星开发了内存处理,以使用最新的互连标准提高数据中心人工智能系统的性能。HBM-PIM(高带宽内存,内存处理)芯片被用于 AMD 的本能 Mi100 AI 加速器。三星随后开发了一个包含 96 个 Mi100 卡的 HBM-PIM 集群,并将其应用于使用 200Gbit/s Infiniband 交换机的各种大规模 AI 和高性能计算 (HPC) 应用程序。
测试表明,与现有的 GPU 加速器相比,HBM-PIM 的加入平均将性能提高了一倍以上,能耗降低了 50% 以上。
对于最新的 AI 模型,准确性往往与体积大小直接相关,这是一个主要障碍。使用现有的内存解决方案,如果超大规模 AI 模型无法充分支持用于数据传输的 DRAM 容量和带宽,则计算这一数据量可能会成为瓶颈。
如果 Google 提出的大容量语言模型在由 8 个加速器组成的集群上进行训练,使用配备 HBM-PIM 的 GPU 加速器每年可节省 2100 GWh 能源,减少 96 万吨碳排放。
通过软件集成,将商用 GPU 与 HBM-PIM 配对可以减少超大规模 AI 数据中心内存容量和带宽限制造成的瓶颈。
三星使用开放软件标准 SYCL 开发了软件,以定义可以使用 GPU 加速器的规范。借助该软件,客户将能够在集成软件环境中使用 PIM 内存解决方案。最近被英特尔收购的 Codeplay 是 SYCL 的主要开发商。
“Codeplay 很自豪能够深入参与定义 SYCL 标准并在创建第一个符合标准的产品中发挥作用。” Codeplay Software 首席商务官 Charles Macfarlane 说,他是负责 SYCL 标准化工作的负责人。“我们与三星合作,通过三星的 PIM 系统简化软件开发,为科学家开辟了一个更大的工具生态系统,使他们能够专注于算法开发,而不是硬件级别的细节。”
英特尔苏格兰软件交易背后的驱动力
软件定义内存推动 IP 制造商进入芯片领域
三星开发的另一个方面是使用 CXL(Compute Express Link)开放标准,用于高速处理器到设备和处理器到内存接口,从而可以更有效地使用与处理器一起使用的内存和加速器。
![]()
CXL 可以与其他技术结合使用,例如内存附近处理 (PNM),以帮助促进内存容量扩展。
与 PIM 一样,这通过使用内存进行数据计算来减少 CPU 和内存之间的数据移动。在 PNM 的情况下,计算函数在更靠近内存的地方执行,以减少 CPU 和内存数据传输之间出现的瓶颈。
三星本月早些时候推出了带有 CXL 的 PNM 技术,用于大容量 AI 模型处理。在测试中,基于 CXL 接口的 PNM 系统在需要高内存带宽的推荐系统或内存数据库等应用程序中性能翻倍。


