华为云发布EMS弹性内存存储服务打破大模型训练瓶颈

责任编辑：程琳琳 2024.06.21 18:51 来源：通信世界全媒体

通信世界网消息（CWW）在华为开发者大会（HDC 2024）上，华为云CTO张宇昕正式发布了EMS弹性内存存储服务。这一服务主要为了解决当前大模型训练与推理领域所面临的“内存墙”挑战，即单个神经处理单元（NPU）的高带宽内存（HBM）容量限制，该问题长期制约着AI算力的高效利用。

华为云EMS的创新之处在于它在NPU卡与持久化存储之间增设了一层弹性内存存储，运用Memory Pooling专利技术，综合显存扩展、算力卸载和以存代算三大策略，有效打破了内存瓶颈。具体来说：

显存扩展：大模型推理中，由于模型太大，通常需要使用大量的NPU卡才能将模型参数装下来进行推理，但是NPU的算力往往利用率不高。EMS将模型参数分层存储在显存和EMS，只用了一半的卡，就可存下万亿参数的大模型，NPU部署数量减少50%。

算力卸载：大模型推理过程中包括模型计算和KV相关计算，其中KV相关计算的显存占用很大。EMS将KV相关计算的步骤卸载到EMS，而模型计算仍在NPU中进行，将AI推理性能提升了100%。

以存代算：大模型推理中为了节省显存，历史对话的KV Cache都不会保存，后续推理都只能重新计算，导致新推理的首Token时延超过1秒。现在可以将历史KV Cache保存在EMS里，供后续推理直接调用。优化后推理首Token时延降低到0.2秒以内，优化了80%。

目前，EMS弹性内存存储服务已在华为云官网上线，面向开发者与客户开放。

通信世界网版权及免责声明:

1、凡本网注明“来源：通信世界全媒体”及标有原创的所有作品，版权均属于通信世界网。未经允许禁止转载、摘编及镜像，违者必究。对于经过授权可以转载我方内容的单位，也必须保持转载文章、图像、音视频的完整性，并完整标注作者信息和本站来源。
2、凡本网注明“来源：XXX（非通信世界网）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的，请在相关作品刊发之日起30日内进行。

发表评论请先登录

发表评论

评价

共0条评论

...

热点文章

...

技术文章

...

会议活动

华为云发布EMS弹性内存存储服务 打破大模型训练瓶颈

华为云发布EMS弹性内存存储服务打破大模型训练瓶颈