中国移动研究院在RISC-V国际基金会提出复数矩阵指令集提案,填补RISC-V在高端计算领域的空白

责任编辑:朱文凤 2026.03.30 13:44 来源:中移智库

通信世界网消息(CWW)RISC-V矩阵指令集是RISC-V架构为应对AI/ML等新兴计算需求而设计的重要扩展,旨在通过硬件加速和软件优化提升矩阵运算性能,推动RISC-V在相关领域的应用和发展。RISC-V国际基金会根据不同场景的AI算力需求,定义了三种矩阵扩展实现方案,分别是IME(Integrated Matrix Extension)、VME(Vector Matrix Extension)、AME(Attached Matrix Extension),目前均处于标准讨论阶段。现有矩阵运算指令集仅支持实数运算,我院专家在RISC-V国际基金会提出了一套复数矩阵运算指令集方案,填补了这一空白。在信号处理、科学计算等领域,通过硬件直接支持复数矩阵运算,可显著降低运算时延、提升执行效率,为移动通信内生AI构建高效、灵活的开源算力底座。

RISC-V与AI扩展指令集的核心逻辑

RISC-V指令集扩展,是在基础指令集之上衍生的模块化可选功能部件,是RISC-V架构最具核心竞争力的设计之一。用户可根据实际应用场景灵活选择是否搭载、搭载哪些扩展模块,形成“架构通用化+扩展定制化”的组合模式。RISC-V AI扩展指令集的设计,本质是基于RISC-V基础架构,提供专门的矩阵运算指令,直接加速核心运算,提升运算能效比。AI算力需求呈现层级化特征,从边缘端轻量级AI推理的低算力、低功耗需求,到云端大模型训练的超高算力、高并行度需求,不同场景对指令集的功能、性能、功耗要求差异显著。RISC-V AI扩展指令集的设计,充分兼顾了这种层级化需求,通过IME、VME、AME三类差异化扩展,形成覆盖边缘到云端的全算力层级解决方案。

RISC-V三大AI扩展指令集IME/VME/AME解析

(一)IME(Integrated Matrix Extension)

IME核心设计思想是不新增专用矩阵寄存器,复用RISC-V已有的向量寄存器作为矩阵乘法的源操作数与累加寄存器,可以保持较低的硬件开销和功耗,又能兼容现有向量指令集的生态。矩阵形状支持灵活配置,由硬件厂商根据实现能力选择。算力规模直接取决于向量寄存器长度(VLEN),不同VLEN的硬件可提供差异化算力设计。其中矩阵乘法支持丰富的数据类型,包括FP8、FP16、BF16、INT8、FP32、FP64等,可适配不同精度需求的AI模型,旨在为低功耗及资源受限场景提供高效的矩阵处理能力。

图片

图1 IME扩展指令集架构

(二)VME(Vector Matrix Extension)

VME核心设计思想是复用RISC-V已有的向量寄存器作为源操作数寄存器,同时新增累加寄存器存储矩阵运算结果。VME采用外积风格的矩阵乘法指令,支持不同数据位宽配置,可灵活平衡计算精度与吞吐量。矩阵乘法支持FP8(E4M3/E5M2)、BF16、INT8等丰富数据类型,能够适配AI推理与训练场景。同时通过新增向量寄存器与累加寄存器间的数据搬运指令,以及累加寄存器的访存指令,保障数据高效传输,可显著提升矩阵运算能效和吞吐量,为RISC-V在AI计算领域的应用提供了高效的硬件加速能力。


图片

图2 VME扩展指令集架构

(三)AME(Attached Matrix Extension)

AME是达摩院推出的一套矩阵扩展指令集,与IME和VME不同,它完全脱离RISC-V向量寄存器架构,采用“独立的tile寄存器+独立累加寄存器”设计,tile寄存器专门存储输入/输出矩阵块(tile),累加寄存器用于存储矩阵运算结果。AME同样采用外积架构,寄存器尺寸可灵活扩展,在FP8精度下可实现1T~32T FLOPS/GHz的算力。AME覆盖了从低精度到高精度的全场景数据类型,基础数据类型包括FP8/FP16/BF16/INT8,主打 AI 推理的低精度高效计算。扩展数据类型涵盖INT16/FP32/FP64/微缩放格式(MXFP8, MXFP4, MXFP6),兼顾高精度科学计算与存储效率,适用于数据中心、科学计算、人工智能训练等对计算性能要求极高的场景。

图片

图3 AME扩展指令集架构

复数矩阵指令设计

复数矩阵在通信/雷达/图像信号处理、科学计算、量子计算和模拟等领域是核心算子,现有IME/VME/AME 均以实数矩阵运算为核心设计,未针对复数矩阵运算进行原生硬件级支持。在处理复数矩阵相关运算时,需将复数拆解为实部与虚部两个独立的实数分量,通过多次实数运算指令分步执行复数乘法、乘加、归约等操作,整个过程存在大量冗余运算开销与数据传输损耗。

中国移动已先后在AME和VME工作组提出复数矩阵指令集扩展方案,方案基于tile分块矩阵架构复用现有寄存器资源,完整定义了复数浮点、复数整型、复数饱和整型三类乘加指令,采用实部虚部交替存储的硬件布局,直接硬件化复数矩阵乘加运算,避免传统软件拆分带来的多次实数乘加冗余开销,可高效支撑信号处理、图像变换、科学计算等关键场景。目前已完成GCC工具链扩展及QEMU指令级行为模型开发,搭建完整功能验证环境,实现复数 GEMM 指令的正确性验证。后续将进一步通过Gem5实现硬件建模,分析IPC、计算密度、流水线停滞分布等关键指标,强化RISC-V在复数密集型AI、信号处理等高端领域的竞争力,推动RISC-V架构向更广泛的高端算力场景延伸。

图片

图4 QEMU模拟器下的功能仿真


通信世界网版权及免责声明:
1、凡本网注明“来源:通信世界全媒体”及标有原创的所有作品,版权均属于通信世界网。未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载我方内容的单位,也必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和本站来源。
2、凡本网注明“来源:XXX(非通信世界网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的,请在相关作品刊发之日起30日内进行。
发表评论请先登录
...
热点文章
    暂无内容