智元机器人首席科学家罗剑岚:如果机器人实现“操控”,是比大语言模型更高级的智能

4月2日,智元机器人宣布与国际顶尖具身智能公司Physical Intelligence(Pi)达成合作伙伴关系,双方将围绕动态环境下的长周期复杂任务,在具身智能领域展开深度技术合作。此外,近期正式加入智元的罗剑岚,将全面领导智元具身智能研究中心,同时推进双方的深度合作。4月2日,罗剑岚接受了《每日经济新闻》记者的采访。

目前,人形机器人仍然依赖人在背后遥控,未来人形机器人能否实现自主决策?

对此,罗剑岚表示:“遥控与自主决策的差别其实很大。遥控类似于你与一个电脑程序对话,但背后与你聊天的是一个真正的人,他在另一台电脑上打字。而自主决策,最核心的是感知、预测、行为生成这一整套机制的泛化能力。机器人要理解世界,需要建立一个Internal Model(世界模型)去预测未来,再去实施可执行的动作链。接着,再看机器人与真实世界的交互,去预测下一步动作。”

罗剑岚认为:“如果机器人真的实现Manipulation(操控),是比LLM(大语言模型)更高级的智能。如果以从0到10分级,大语言模型最多算3,如果机器人实现Manipulation,至少有7至8。”

那么,在实现机器人Manipulation的道路上,最关键的技术是什么呢?

罗剑岚认为:“强化学习是我们比较看重的一个技术,此外我们也看到DeepSeek R1所展现出的比较强的推理能力。但光有模仿学习是不够的,后来我们还会有世界模型。根据我们云端的Model(模型),去预测下一步环境会发生什么。不过这些都是工具,真正本质上需要解决的,是怎样在开放数据链构建(具有)鲁棒的策略,然后感知、预测、行为生成这一整套机制的泛化能力,才是最核心、最关键的。”

值得一提的是,汽车智能驾驶是收集到众多车辆的数据后,才慢慢发展起来的。当下人形机器人尚未大规模应用于生活场景。如果缺乏足够的数据,人形机器人的“操控”该如何突破?

罗剑岚表示:“我也经常在想,这是一个循环。我们没有机器人部署到真实世界,它就不会产生数据;机器人的能力没到一定程度,也无法部署到真实世界中去。但是,必须要有人做这些事,假设有1000台机器人在星巴克工作,每天24个小时打咖啡,其一个月传回来的数据,超过我们现在所有见过的机器人数据集。或许这时会发现,在小的数据量中得出的很多结论不一定正确。”

不过罗剑岚也强调,机器人部署到真实世界的难度,小于汽车(智能驾驶),“车在安全性等各方面要求太严格。而机器人,可以从一些封闭空间、半封闭空间部署,让它产生数据”。

封面图片来源:每日经济新闻 刘国梅 摄