智元机器人发布行业首个机器人世界模型开源平台

责任编辑:包建羽 2025.08.14 15:52 来源:通信世界网

通信世界网消息(CWW)8月14日,据智元机器人消息,智元机器人推出面向真实世界机器人操控的统一世界模型平台Genie Envisioner(GE)。 不同于传统“数据-训练-评估”割裂的流水线模式,GE将未来帧预测、策略学习与仿真评估首次整合进以视频生成为核心的闭环架构,使机器人在同一世界模型中完成从“看”到“想”再到“动”的端到端推理与执行。

据了解,GE的核心突破在于构建了基于世界模型的以视觉中心的建模范式。不同于主流VLA(Vision-Language-Action)方法依赖视觉-语言模型将视觉输入映射到语言空间进行间接建模,GE直接在视觉空间中建模机器人与环境的交互动态。这种方法完整保留了操控过程中的空间结构和时序演化信息,实现了对机器人-环境动态更精确、更直接的建模。

这一视觉中心的建模范式带来了两个关键优势。

高效的跨本体泛化能力

基于强大的视觉空间预训练,GE-Act仅需极少量数据即可实现跨平台迁移。在Agilex Cobot Magic和Dual Franka等全新机器人平台上,GE-Act仅使用1小时(约250个演示)的遥操作数据就实现了高质量的任务执行。相比之下,即使是在多本体数据上有大规模预训练的π0和GR00T模型,在相同数据量下的表现也不如GE-Act。

这种高效泛化源于GE-Base在视觉空间中学习到的通用操控表征。通过直接建模视觉动态而非依赖语言抽象,模型能够捕捉到跨平台共享的底层物理规律和操控模式,从而实现快速适配。

image.png

长时序任务的精确执行能力

更重要的是,视觉中心建模赋予了GE强大的未来时空预测能力。通过在视觉空间中显式建模时序演化,GE-Act能够规划和执行需要长时序推理的复杂任务。

在折叠纸盒等超长步骤任务中,GE-Act展现出了远超现有SOTA方法的性能。以纸盒折叠为例,这项任务需要精确执行超过10个连续子步骤,每个步骤都依赖于前序动作的准确完成。GE-Act达到了76%的成功率,而专门针对柔性物体操控优化的π0仅为48%,UniVLA和GR00T则完全无法完成(0%成功率)。

这种长时序执行能力的提升不仅源于GE的视觉世界建模,同时也得益于我们创新设计的sparse memory模块。通过这样的模块设计,能够帮助机器人选择性地保留关键历史信息,从而在长时序任务中保持精确的上下文理解。通过预测未来的视觉状态,GE-Act能够"预见"动作的长期后果,从而生成更连贯、更稳定的操控序列。相比之下,基于语言空间的方法在长时序任务中容易出现误差累积和语义漂移。

image.png

通信世界网版权及免责声明:
1、凡本网注明“来源:通信世界全媒体”及标有原创的所有作品,版权均属于通信世界网。未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载我方内容的单位,也必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和本站来源。
2、凡本网注明“来源:XXX(非通信世界网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的,请在相关作品刊发之日起30日内进行。
发表评论请先登录
...
热点文章
    暂无内容