人形机器人“具身大脑”发展趋势、挑战及运营商启示

责任编辑:朱文凤 2026.06.09 08:49 来源:天翼智库

通信世界网消息(CWW)近期美国具身智能公司Physical Intelligence(以下简称“PI”)发布了最新版本通用大模型π0.7,π0.7融合了世界模型,具备较强的泛化能力,在叠衣服、做浓缩咖啡等任务方面相比之前版本任务执行成功率都有一定的提升。

人形机器人产业发展迅速,技术不断突破

国内人形机器人销量将实现翻倍,有望复制智能电动车奇迹。据IT桔子数据,截至4月10日,2026年机器人行业一级市场融资事件已突破269起,总金额预计345亿元人民币。此外,摩根士丹利也发布报告 ,人形机器人和机器人列为中国未来5-10年出口的下一个关键驱动力,当前的轨迹与十年前的电动车类似,预计2026年中国人形机器人销量将翻倍至2.8万台。

具身智能高质量数据匮乏得到缓解,触觉采集设备性能不断提升。行业已出现通过优化模型架构来缓解少样本的困境,部分厂商通过构建与强化模型内部2D/3D表征,以增强空间理解能力,降低及消除指令歧义,使单一任务数百条轨迹训练数据降低为仅几条数据,如中科第五纪与字节联合发布的BridgeVLA实现每任务平均3条轨迹训练数据及95.4%成功率 。另外,对于高质量触觉数据,在真机数据采集方面,国内头部公司不断优化并收敛传感器的性能,如超维传感最新发布的融合感知传感器一致性误差已小于1%,这将有效提升触觉数据采集的质量,同时行业也已出现高质量视觉触觉对齐的真机遥操设备,如爱迪斯通科技Fusion X视触觉采集方案。

VLA融合世界模型成为人形机器人“具身大脑”新趋势,国内外具身智能厂商纷纷布局。进入2026年以来,多具身智能厂商积极通过加持世界模型改善VLA的泛化能力与执行任务的成功率(如图-1)。PI最新发布的π0.7具身模型融合了世界模型BAGEL,用以预测子目标图像,π0.7在4个未见过的厨房场景,每个场景3-6个开放指令条件下,实现超过80%的成功率,相比上一个未引入世界模型的π0.6提升了超过20%的成功率 。国内公司极佳科技近期发布了GigaWorld-Policy,通过当前观测环境信息预测未来的动作及视觉环境,增加了模型自监督的稠密度,相比头部Motus世界模型提升了近7%的任务成功率,推理速度提升近9倍 。最后,银河通用也发布了隐式世界-动作基础模型LDA-1B,行业首次实现30K以上小时异构具身数据有效利用,相比π0.5,LDA-1B性能在丰富接触类的操作任务上有21%的提升,在灵巧操作任务上实现了48%的提升 。

640 (2).png

图1 行业已出现多个具身世界模型

国内人形机器人“具身大脑”面临的挑战

1. 高质量触觉数据仍极度匮乏

近期觅蜂科技CEO姚卯青在行业会议上披露,全行业高质量具身智能数据规模约为50万小时。另据高工数据,今年年初国家共建人形机器人创新中心联合触觉传感器企业发布“百虎-VTourch”数据集,其触觉数据规模仅为1,000小时,因此高质量触觉数据占比太少,过少的触觉数据将无法有效的改良整体数据集的分布,进而在训练的过程中易被边缘化,影响模型训练和学习效果。此外,高质量触觉数据真机采集困难且成本高,面对易碎、柔性物体与未知重量物体时,易出现抓取失败或出现被抓物体损坏等问题。在仿真数据采集方面,国内专业可商用的仿真软件仍处于空白状态,目前仅部分高校持续攻坚触觉传感仿真软件,如北邮团队Tacchi 2.0。

2.VLA融合世界模型将使机器人本体算力面临考验

多厂商VLA模型为适用于机器人端侧部署往往参数量较低,如π0.5参数量约为3B,GR00T参数量约为2B,存在端侧算力有限等导致的模型物理能力弱、泛化能力有限、记忆缺失以及执行长序列任务错误率高等问题,通过融入世界模型将使“具身大脑”模型的整体参数量变大,如融合轻量级世界模型的π0.7模型参数达到5B,生数科技混合MoT的MotuBrain模型参数量也达到8B,对此中国科学院自动化研究所相关专家表示,目前部署在机器人本体上的具身大模型最优参数仅为0.5B左右,因此未来VLA融合世界模型技术方案将存在端侧算力、显存不足等问题。

运营商启示

1.视觉-触觉融合的“具身大脑”将是未来趋势

先进的触觉传感器可将接触面三维形变转化为高分辨率图像,在物体材质识别与精细抓取任务上展现出显著优势,如北大团队发布的融合触觉的MLA模型,在贴邮票场景中实现87%的成功率,较未融合触觉信息的π0模型提升近15% ,因此高质量触觉数据需不断积累,升级采集设备,优化采集方法。

2.机器人本体算力与显存能力有限,“具身大脑”端云协同将成为最优解

未来人机交互将更加注重交互体验,“具身大脑”需具备较强的记忆能力,较强的三维空间理解能力,实现较长的上下文推理以及并发会话等功能,因此需要较多的算力及显存,部分具身智能公司为推进模型实现端侧部署,对模型进行蒸馏、剪枝等缩小模型参数,使模型过分“轻量级”,虽然在一定程度上提高了推理速度,但削弱了模型执行任务的成功率,如银河通用LDA-1B与LDA-0.5B对比显示,LDA-1B参数任务成功率提升接近5%,因此将部分感知、空间理解能力与任务规划上云,部分实时性高的动作执行下放至端侧的端云协同“具身大脑”方案有望成为主流趋势。


通信世界网版权及免责声明:
1、凡本网注明“来源:通信世界全媒体”及标有原创的所有作品,版权均属于通信世界网。未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载我方内容的单位,也必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和本站来源。
2、凡本网注明“来源:XXX(非通信世界网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的,请在相关作品刊发之日起30日内进行。
发表评论请先登录
...
热点文章
    暂无内容