多芯片全覆盖，优刻得推出新一代GPU虚拟化技术

责任编辑：梅雅鑫 2025.12.01 16:47 来源：通信世界网

通信世界网消息（CWW）“一个只有8G显存需求的小实验，为什么要独占整张高端GPU卡？”

“为什么算法工程师调一次参数，还要排队抢显卡？”

在算力成为企业核心生产力的大背景下，GPU资源紧张、采购昂贵、利用率不均衡等问题正成为AI落地的最大掣肘。

针对这些行业痛点，优刻得正式发布新一代GPU虚拟化技术，通过显存与算力的双维度切分能力，将单张GPU的资源拆分为多个独立的虚拟算力单元，切分粒度最小可精确至10%。该能力使单卡可同时承载多个AI工作负载，在推理服务、模型开发、科研教学等场景显著提升资源利用率。

依托轻量级用户态截获与API调度机制，优刻得GPU虚拟化技术实现了显存、CUDA核心资源的可控分配与强隔离，避免传统共享模式下的“邻居干扰”与显存溢出导致整卡崩溃的问题。官方实测显示，虚拟化带来的性能损耗可控制在1%–3%，接近原生GPU的使用体验。

随着华为Flex:ai等技术推动算力切分逐渐成为行业趋势，优刻得此次发布的GPU虚拟化能力在芯片适配层面进一步拓展，已覆盖NVIDIA、昇腾、寒武纪、沐曦等更多架构。

图片由AI生成

创新技术路线：把GPU变成真正“可共享”的资源池

不同于传统的MPS（多进程服务）或简单的分时复用方式，优刻得GPU虚拟化技术采用API劫持+用户态轻量截获的技术路线，在GPU与上层应用之间构建一层智能、轻量、可控的虚拟化管理层，让显卡资源的分配更精确、更稳定：

显存与算力的双重精细化调度，让任务之间各行其道

传统GPU共享方式中，一个任务显存泄露可能导致整卡服务一起“陪跑”。优刻得通过设置显存硬上限和算力百分比分配，自上而下实现真正意义上的资源隔离，任务各自运行互不干扰。

性能损耗极低，迁移成本几乎为零

虚拟化层采用轻量级用户态截获技术，不做重度改写、不增加冗余逻辑，GPU指令几乎以“直通”方式完成。同时，开发者在迁移时也无需修改代码或重建镜像。

原生支持异构与国产化，算力调度更加灵活开放

在原生Kubernetes调度能力基础上进一步扩展，实现在NVIDIA、昇腾、寒武纪、沐曦等芯片间的统一管理，并支持binpack、spread等多种调度策略。

通过上述创新技术路线，优刻得GPU虚拟化技术能够覆盖更广泛的算力环境，为政企、科研、制造等行业提供灵活可控的算力基础设施。

应用场景持续扩展，助力多行业客户实现降本增效

除了高校教学与企业研发场景外，优刻得GPU虚拟化技术正在多个AI落地场景中创造价值。

在小参数量大模型（LLM）推理服务中，如7B、13B模型，其显存占用相对固定，但计算负载往往达不到整卡算力，造成显著资源浪费。通过虚拟化技术，一张GPU可同时部署2–4个推理副本，显著提升单卡并发能力（QPS），大幅降低推理成本。

在高校科研、教学实验与企业研发场景中，Notebook或调试任务往往只需少量显存。借助优刻得GPU虚拟化，一张80GB显存的显卡可切分为8–10个小实例，实现单设备的十倍资源复用，显著缓解研发排队与设备不足的问题。

通过上述能力，优刻得正推动算力资源向精细化管理转变，让AI研发、推理与应用部署更加轻量、高效、可控，为各行业释放更大算力价值。

通信世界网版权及免责声明:

1、凡本网注明“来源：通信世界全媒体”及标有原创的所有作品，版权均属于通信世界网。未经允许禁止转载、摘编及镜像，违者必究。对于经过授权可以转载我方内容的单位，也必须保持转载文章、图像、音视频的完整性，并完整标注作者信息和本站来源。
2、凡本网注明“来源：XXX（非通信世界网）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的，请在相关作品刊发之日起30日内进行。

发表评论请先登录

发表评论

评价

共0条评论

...

热点文章

...

技术文章

...

会议活动