来源:https://zhuanlan.zhihu.com/p/1931870031035229302
作者:任赜宇
这周二(7月22日)ByteDance Seed发布了机器人操作大模型GR-3:
ArXiv:http://arxiv.org/abs/2507.15493
项目主页:https://seed.bytedance.com/GR3
作为深度参与 GR-3 的一员,同时也是从传统机器人行业走过来的从业者,想和大家分享一下:在大模型与 AI 技术飞速发展的今天,Robotics与 AI 的融合究竟碰撞出了哪些值得关注的火花。(以下内容仅代表个人,不代表公司和团队)
首先呢,我们简单回顾一下GR-3:

04:10
GR-3的3大亮点:
- 能够很好地理解各类抽象语言指令进行抓取操作(Generalizable Pick-and-Place);
- 能够在无规划的情况下纯端到端的完成长序列任务(Long-Horizon Table Bussing);
- 能够双臂协同对柔性物体进行精细的操作(Dexterous Cloth Manipulation);
整体来看,GR-3相较于去年的GR-2有很大的进步,和业内当前开源中最好的VLA模型(pi0)相比,在整体性能上有一定超越。当然坦白来说,physical intelligence目前最先进的模型是pi0.5——但该模型还未开源,我们也拿不到,所以也无法客观地“切磋”比较了。
短期不能高估技术,长期也不能低估技术
这是Robotics和AI结合到一起后,也就是大家所说的“具身智能”时代,我的第一个巨大的感受。
为什么说短期不能高估技术。因为无论是GR-3,还是当前的pi0甚至pi0.5,在和人类大脑智能相比较的时候,可以说现有具身智能模型的“智能”大概相当于人类1-2岁小baby的水平。有2点我觉得是非常需要说明的:
- 涉及到物理和空间世界的机器人AI模型(代表性如VLA或VTLA)其实还处于很早的阶段,和现有能力非常强的纯语言类(如LLM)或融合视觉的模型(如VLM)相比,还有很大的成熟度差距;
- 当前我们看到很多机器人都能够非常出色地跑步、跳舞、跑酷——这些都是非常好的工作,技术上说是在locomotion领域用RL做了很好的工作,机器人本体的运动能力也非常出色。但很关键的是,locomotion领域的巨大进展还暂时不能和机器人智能的巨大突破直接画上等号,机器人仍然在观察世界、理解世界与进行精细、复杂、长程、柔性等contact rich的抓取操作上有很大的技术空缺;
那为什么同时说长期也不能低估技术呢?因为和5年前基于rule-based的机器人操作技术相比,现在机器人+AI的技术能力实在太强了!就说GR-3展现的1. 长程无规划纯端到端的桌面清理以及2. 柔性衣物的双臂协作,放在rule-based时代基本上不敢想象的(各种建模与规划until to death):
- 长程涉及双臂操作、底盘移动纯端到端的餐桌清理,餐桌的物品和放置位置是随意非固定的,可参考如下2个机器人第一视角DEMO;

01:04

01:26
2. 双臂协作针对柔性物体的精细操作,rule-based时代大家可能都了解双臂协作中铰链(articulated)的难度,以及操作的还是难以建模的衣服,甚至连衣架都是柔软可形变的,柔性衣服的位置也是随意摆放的,放到rule-based的时代这个任务的难度完全不敢想象;

00:41

00:36
具身智能的本体、模型和数据 需要互相依赖并共同迭代
这是近1-2年我和模型和数据同学深入打交道后,我的第二个巨大的感受。
机器人+AI也就是现在大家所说的具身智能,比之前纯robotics的技术链路更长了(robotics本身就是一个多学科融合的复杂交叉领域了),因此在这种多链路的复杂学科里面,有一件很重要的事情,就是需要我们科学客观地去判断具身智能当前的短板所在。
我个人认为,具身智能主要可以划分为3个大的领域,即本体、模型与数据,而整体行业的木桶短板个人认为在模型和数据上。因为一个客观事实是:当我们用人类的眼睛和大脑去遥操作机器人本体去完成各种任务时,其完成任务的能力,是比当前市面上任何一款机器人模型的autonomous能力要强太多了——说白了,现在机器人难以胜任各类任务的最大短板,就是“脑子笨”。
Don’t get me wrong,现在木桶的短板是“脑子笨”,但并不意味着机器人的本体的研究和探索就没有意义去做。相反在这个时代,机器人本体的设计思路是需要有一定转变的,而且需要有更高的技术视野要求,即机器人本体的研究设计一定不是“孤立”的,而是要理解和吃透当前的模型和数据能力,去做符合当前模型与数据能力的机器人,过于“超前”的机器人本体在当前的模型和数据能力之下,其实并没有那么合适。
本体、模型和数据在未来是需要强耦合螺旋迭代的,当模型和数据能力大幅度提升以至于逼近机器人的本体能力上限时,我们就可以激进地提升本体的能力——比如说增加灵巧手、触觉甚至双腿。本体硬件决定性能的上限,模型和数据发挥能力逼近上限,螺旋式的共同耦合发展迭代——这会是一个比较健康的具身智能迭代思路。
行业可能的发展方向
经历了 GR-3 的研发,我觉得如下几个方向或许会成为热点,也欢迎大家一起评论区讨论。
- 更多真实场景数据的收集:Unseen enviroments在实验室环境中构建难度很大,In the wild的数据和数据采集会有很大的需求,如何高效、经济、合规地走出实验室去收集大量更真实的场景数据,会是需要关注的点;
- 强化学习在机器人操作的突破:强化学习如何做出SOTA类的工作,我们知道sft本质上是对人类行为的“模仿”,需要依赖大量的数据,强化学习、尤其是更有挑战的真机online强化学习,可以极大地提升机器人的学习效率,减少对大量数据的依赖;
- 数据金字塔的构建:更加合理的各类数据分布,真实的机器人数据、人类VR动捕数据、互联网数据,甚至更新模态的触觉、力觉的数据,或者是仿真数据,应该以一个什么样的比例分布,以组成一个更加合理高效的“数据金字塔”;
- 仿真平台的研究和探索:在具身智能领域,一个好用的仿真平台是行业加速发展的 “刚需”—— 回顾那些技术成熟的行业(比如汽车、航空),背后往往都有一套可靠的仿真体系作为支撑。具体来说,有两个方向值得深入研究:1. 仿真与现实数据之间存在天然的差异(Sim2Real gap),那我们该用什么方法让仿真生成数据somehow帮助到模型训练?2. 仿真平台能否承担大规模模型测评,目前真机测试不仅耗时耗力,还可能受环境、物料、测试员等因素影响客观性,如果能把大规模模型测评放到仿真平台中进行,是否能大幅提升测试效率,同时让结果更稳定、更具可比性?
- 数据迁移能力:高质量真机数据的迁移性的研究,一是在不同机器人本体的可迁移性,即cross embodyment的能力,二是结合模型在不同逻辑或者相似逻辑任务的可迁移性,即针对新的任务是否有few shot甚至zero shot的泛化能力;
个人给机器人相关同学的建议
在回答的最后,想特别对正在深耕机器人领域的同学们说几句。机器人作为人工智能在物理世界具象化的最佳载体,其未来的发展空间无疑是极具想象力的——从工业生产到家庭服务,从医疗辅助到探索未知,它正逐步打破虚拟与现实的边界,成为推动社会进步的重要力量。
基于这样的行业趋势,有两条建议想和大家共勉:
- 主动拥抱模型与数据驱动的新技术浪潮。当下具身智能的发展日新月异,那些在行业内被验证有效的模型架构和技术逻辑,值得我们花时间去深入拆解和理解。在技术迭代如此迅猛的当下,尽量避免陷入逆潮流的研发方向,才能让自己的努力更贴合行业的核心发展脉络,推荐大家看一下如下几个VLA的工作:从比较早期的PaLM-E,RT-2,到近期的pi0、pi0.5,当然也欢迎follow我们的GR-2和GR-3,同时Sergey Levine的工作和一些Youtube的Talk推荐熟读熟看,Russ Tedrake的一些近期工作也可以保持follow;
2. 用长期主义的心态看待研究与择业。机器人与AI的深度融合(也就是我们常说的具身智能),本质上是一场跨越技术、工程、认知科学等多领域的长期探索,行业目前处于草莽发展期,难免很多变化,但还是愿我们都以“长期主义”共勉;
希望以上的思考能给大家带来一些启发,也期待在这个充满可能性的领域里,看到更多年轻力量的突破与创新。

评论0