中国移动研究院在RISC-V国际基金会提出复数矩阵指令集提案，填补RISC-V在高端计算领域的空白

责任编辑：朱文凤 2026.03.30 13:44 来源：中移智库

通信世界网消息（CWW）RISC-V矩阵指令集是RISC-V架构为应对AI/ML等新兴计算需求而设计的重要扩展，旨在通过硬件加速和软件优化提升矩阵运算性能，推动RISC-V在相关领域的应用和发展。RISC-V国际基金会根据不同场景的AI算力需求，定义了三种矩阵扩展实现方案，分别是IME（Integrated Matrix Extension）、VME（Vector Matrix Extension）、AME（Attached Matrix Extension），目前均处于标准讨论阶段。现有矩阵运算指令集仅支持实数运算，我院专家在RISC-V国际基金会提出了一套复数矩阵运算指令集方案，填补了这一空白。在信号处理、科学计算等领域，通过硬件直接支持复数矩阵运算，可显著降低运算时延、提升执行效率，为移动通信内生AI构建高效、灵活的开源算力底座。

RISC-V与AI扩展指令集的核心逻辑

RISC-V指令集扩展，是在基础指令集之上衍生的模块化可选功能部件，是RISC-V架构最具核心竞争力的设计之一。用户可根据实际应用场景灵活选择是否搭载、搭载哪些扩展模块，形成“架构通用化+扩展定制化”的组合模式。RISC-V AI扩展指令集的设计，本质是基于RISC-V基础架构，提供专门的矩阵运算指令，直接加速核心运算，提升运算能效比。AI算力需求呈现层级化特征，从边缘端轻量级AI推理的低算力、低功耗需求，到云端大模型训练的超高算力、高并行度需求，不同场景对指令集的功能、性能、功耗要求差异显著。RISC-V AI扩展指令集的设计，充分兼顾了这种层级化需求，通过IME、VME、AME三类差异化扩展，形成覆盖边缘到云端的全算力层级解决方案。

RISC-V三大AI扩展指令集IME/VME/AME解析

（一）IME（Integrated Matrix Extension）

IME核心设计思想是不新增专用矩阵寄存器，复用RISC-V已有的向量寄存器作为矩阵乘法的源操作数与累加寄存器，可以保持较低的硬件开销和功耗，又能兼容现有向量指令集的生态。矩阵形状支持灵活配置，由硬件厂商根据实现能力选择。算力规模直接取决于向量寄存器长度（VLEN），不同VLEN的硬件可提供差异化算力设计。其中矩阵乘法支持丰富的数据类型，包括FP8、FP16、BF16、INT8、FP32、FP64等，可适配不同精度需求的AI模型，旨在为低功耗及资源受限场景提供高效的矩阵处理能力。

图1 IME扩展指令集架构

（二）VME（Vector Matrix Extension）

VME核心设计思想是复用RISC-V已有的向量寄存器作为源操作数寄存器，同时新增累加寄存器存储矩阵运算结果。VME采用外积风格的矩阵乘法指令，支持不同数据位宽配置，可灵活平衡计算精度与吞吐量。矩阵乘法支持FP8（E4M3/E5M2）、BF16、INT8等丰富数据类型，能够适配AI推理与训练场景。同时通过新增向量寄存器与累加寄存器间的数据搬运指令，以及累加寄存器的访存指令，保障数据高效传输，可显著提升矩阵运算能效和吞吐量，为RISC-V在AI计算领域的应用提供了高效的硬件加速能力。

图2 VME扩展指令集架构

（三）AME（Attached Matrix Extension）

AME是达摩院推出的一套矩阵扩展指令集，与IME和VME不同，它完全脱离RISC-V向量寄存器架构，采用“独立的tile寄存器+独立累加寄存器”设计，tile寄存器专门存储输入/输出矩阵块（tile），累加寄存器用于存储矩阵运算结果。AME同样采用外积架构，寄存器尺寸可灵活扩展，在FP8精度下可实现1T~32T FLOPS/GHz的算力。AME覆盖了从低精度到高精度的全场景数据类型，基础数据类型包括FP8/FP16/BF16/INT8，主打 AI 推理的低精度高效计算。扩展数据类型涵盖INT16/FP32/FP64/微缩放格式（MXFP8, MXFP4, MXFP6），兼顾高精度科学计算与存储效率，适用于数据中心、科学计算、人工智能训练等对计算性能要求极高的场景。

图3 AME扩展指令集架构

复数矩阵指令设计

复数矩阵在通信/雷达/图像信号处理、科学计算、量子计算和模拟等领域是核心算子，现有IME/VME/AME 均以实数矩阵运算为核心设计，未针对复数矩阵运算进行原生硬件级支持。在处理复数矩阵相关运算时，需将复数拆解为实部与虚部两个独立的实数分量，通过多次实数运算指令分步执行复数乘法、乘加、归约等操作，整个过程存在大量冗余运算开销与数据传输损耗。

中国移动已先后在AME和VME工作组提出复数矩阵指令集扩展方案，方案基于tile分块矩阵架构复用现有寄存器资源，完整定义了复数浮点、复数整型、复数饱和整型三类乘加指令，采用实部虚部交替存储的硬件布局，直接硬件化复数矩阵乘加运算，避免传统软件拆分带来的多次实数乘加冗余开销，可高效支撑信号处理、图像变换、科学计算等关键场景。目前已完成GCC工具链扩展及QEMU指令级行为模型开发，搭建完整功能验证环境，实现复数 GEMM 指令的正确性验证。后续将进一步通过Gem5实现硬件建模，分析IPC、计算密度、流水线停滞分布等关键指标，强化RISC-V在复数密集型AI、信号处理等高端领域的竞争力，推动RISC-V架构向更广泛的高端算力场景延伸。

图4 QEMU模拟器下的功能仿真

通信世界网版权及免责声明:

1、凡本网注明“来源：通信世界全媒体”及标有原创的所有作品，版权均属于通信世界网。未经允许禁止转载、摘编及镜像，违者必究。对于经过授权可以转载我方内容的单位，也必须保持转载文章、图像、音视频的完整性，并完整标注作者信息和本站来源。
2、凡本网注明“来源：XXX（非通信世界网）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的，请在相关作品刊发之日起30日内进行。

发表评论请先登录

发表评论

评价

共0条评论

...

热点文章

...

技术文章

...

会议活动