你以为的具身智能机器人长啥样？

作者：梅雅鑫王禹蓉责任编辑：梅雅鑫 2025.08.19 08:38 来源：通信世界网

机器人

5G-A

通信世界网消息（CWW）8月14日，北京国家速滑馆“冰丝带”迎来了一群“不速之客”。这次，在100米、400米、1500米、4×100米的赛道上奔跑的不再是“人”，而是“人形机器人”。

作为全球首个以人形机器人为参赛主体的综合性运动会，2025世界人形机器人运动会在北京开幕，来自全球16个国家的280支参赛队伍，展开包含竞技赛、表演赛、场景赛、外围赛四大类别，26个赛项，总计487场的比拼。

就在运动会召开的一周前，2025世界机器人大会在北京亦庄举办，在现场，会打拳击的人形机器人、能叠被子的家庭管家、在跑步机上狂奔的“速度王者”，上百款不同功能的具身智能机器人令观众大饱眼福……

那么，什么是具身智能？背后有哪些技术支撑？未来能帮我们干什么？

什么是具身智能？机器人终于“知行合一”

如果说传统机器人是“按剧本演戏”，那么具身智能机器人就是“即兴表演者”。

简单说，具身智能指的是机器人不仅有“大脑”（智能模型），还有能感知世界的“身体”（硬件），更能把想法变成行动。就像人类通过眼睛看、耳朵听、手脚动来理解世界，具身智能机器人靠摄像头“看”、麦克风“听”、关节电机 “动”，在真实环境中边学边做。例如，你让它“把桌上的水杯递给奶奶”，它得先认出哪个是水杯、奶奶在哪，再规划路线避开地上的拖鞋，最后用恰到好处的力气拿起杯子——这一系列操作，就是具身智能机器人的“日常”。

步入2025世界机器人大会展厅，仿佛掉进了“未来生活体验馆”。1500多台机器人各显神通，从工厂车间到家庭客厅，从运动赛场到应急现场，具身智能机器人的存在感越来越强了。

在工业场景，机器人组队“打工人”，协作比人还默契。在优必选展台，一场“机器人流水线秀”正在上演：Walker S2人形机器人负责抓取零件，Cruzr S2在旁扫码登记，UQI移动机器人Wali像个勤快的 "搬运工" 穿梭送料，无人物流车Chitu则在出口处打包 —— 整个流程行云流水，连零件摆放角度都分毫不差。

在家庭场景，机器人管家上线，细节暖到人心。傅利叶展台前，不少家长带着孩子围观GR-3机器人。这台长得像动画里“大白”的机器人，用软乎乎的手臂轻轻拿起绘本，还会根据孩子的笑声调整翻页速度。当有观众伸手摸它的头时，它会眨眨“眼睛”，慢悠悠转过头来“对视”。

再来看世界人形机器人运动会，在开幕式上，从彰显人机共融主题的《欢迎来到碳基生命的世界》开场歌舞，到展现文化传承的《智韵和鸣》机器人鼓乐表演，再到融合传统服饰与现代科技的《天工霓裳》走秀，这场“人机交互”的开幕式带领大家提前领略到2025人形机器人运动会科技与艺术交融的独特魅力与无限可能，让未来的赛场盛况呈现在大家眼前。

比赛首日，宇树科技H1人形机器人就斩获两金，分别是运动会首金1500米的冠军（6分34秒）以及400米冠军（1分28秒），而夺冠的机器人正是曾经登上蛇年春晚舞台的机器人。

北京天工队的“具身天工Ultra”机器人以21.50秒的成绩夺得全球首个人形机器人运动会100米短跑项目的冠军。在竞技赛中，原地跳高由星动纪元队以0.95米的成绩夺冠；自由体操中松延动力小顽童队凭借41.6分的高分摘得桂冠……

赛事保障方面，中国联通将“为人而建”的网络，升级为“人+具身智能共生”的新一代智慧底座，推动网络创新落地。传统网络几十毫秒的时延已能满足人类需求，但人形机器人对网络性能要求更为严苛——必须实现毫秒级甚至亚毫秒级的超低时延，做到时刻保持极小的时延抖动。任何网络波动都可能导致机器人动作偏差，影响作业精度甚至引发安全事故。为此，中国联通充分发挥全光网络低时延、大上行、高可靠、广连接的技术优势，构建起一套智能、高效、安全的通信服务体系，为赛事提供坚实保障。

这场特别的运动会不仅是一场竞技盛会，更是智能科技与体育精神的完美融合。

机器人的“聪明”从哪来？三大核心能力拆解

这些机器人之所以这么“聪明”，背后藏着具身智能的三大“黑科技”。就像人类靠大脑、感官和肌肉协同工作，机器人的“聪明”也离不开这三部分。

首先，“世界模型”是迈向通用人工智能（AGI）的重要阶梯，其通过学习环境的时空动态，不仅预测未来状态，还能评估自身行动的后果。想象一下：如果教机器人叠被子，每次做错都要重新铺床，多费时间？而“世界模型”就像个“虚拟卧室”，机器人可以在里面反复练习，摔多少次都不用收拾。谷歌DeepMind最新发布的Genie 3就能模拟上万种房间场景，让机器人在虚拟世界里练熟了再实践。

宇树科技创始人、首席执行官兼首席技术官王兴兴认为 “世界模型” 这个方向值得关注，可能会比VLA模型更快落地。而且，现在机器人学习新技能得从头训练，没办法复用旧知识，所以实现类似大模型的持续学习能力也很迫切。

其次，当前最火的具身智能模型——VLA模型（Vision-Language-Action Model，即视觉-语言-动作模型）就像是机器人的“神经中枢”：眼睛看到“水杯”，语言理解“递给人”，动作系统规划“走过去拿杯子”—— 这三步全靠它翻译。

不过，王兴兴认为，目前VLA模型的实用性尚存在局限，在对真实世界交互的时候，其数据质量实际上是不太够用的。即便是在RL（强化学习）的加持下，该模型架构依然需要继续进行升级和优化。

现在的问题不是“没数据”，而是“模型不会用数据”。未来的VLA模型需要更懂“上下文”。

最后，强化学习是机器人的“试错神器”。例如，来自深圳鹿明机器人的LUS2，它是全球首个实现“1秒弹射起身”的全尺寸人形机器人，最大突破在于实现了“一秒弹射起身”的敏捷能力，远超行业平均3-5秒的恢复时间。鹿明机器人的绝技背后藏着强化学习的秘密，通过强化学习训练的仿生姿态算法，在1毫秒内完成重心迁移决策，动态调整速度比人类反射神经快30倍。

现在，强化学习还在和生命科学结合。比如模仿章鱼的触手控制方式，让机器人的手臂更灵活；学人类的肌肉发力规律，让动作更自然。未来的机器人，可能比我们更懂“怎么用身体”。

未来3-5 年后，机器人会变成什么样？

在2025世界机器人大会主论坛上，专家们预测：未来3-5年，具身智能机器人将迎“ChatGPT时刻”——就像当年ChatGPT突然能流畅对话，机器人也会突然能在陌生环境里听懂指令、流畅干活。

而产业规模早已吹响号角：2024年中国机器人产业营收近2400亿元，2025年上半年工业机器人产量增长35.6%，服务机器人增长25.5%。从工厂到家庭，从赛场到深海，具身智能机器人正在把“科幻片”变成“纪录片”。

在2025世界机器人大会的出口处，有个互动屏幕，上面写着：“你希望机器人帮你做什么？”有人写“陪老人聊天”，有人写“修灯泡”，还有人写“一起踢足球”。

这些愿望的背后，是人类对机器人的期待——不是冷冰冰的机器，而是能感知、能沟通、能协作的伙伴。具身智能的终极意义，或许不是让机器人变得和人一样，而是让它们用自己的“身体智慧”，帮我们解决那些“不想做、做不到、不敢做”的事。

通信世界网版权及免责声明:

1、凡本网注明“来源：通信世界全媒体”及标有原创的所有作品，版权均属于通信世界网。未经允许禁止转载、摘编及镜像，违者必究。对于经过授权可以转载我方内容的单位，也必须保持转载文章、图像、音视频的完整性，并完整标注作者信息和本站来源。
2、凡本网注明“来源：XXX（非通信世界网）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的，请在相关作品刊发之日起30日内进行。

发表评论请先登录

发表评论

评价

共0条评论

...

热点文章

...

技术文章

...

会议活动