
蓝鲸最前线|浙江大学熊蓉:从专家建模到数据驱动,具身智能人形机器人落地的五大挑战

蓝鲸新闻5月6日讯(编辑 李梦琪)从简单的工业自动化发展到具身智能,智能化发展进程大步向前。人类对于智能技术的应用早已不满足于单一技术的重复,在大规模数据积累和技术突破的当下,人形机器人的发展逐渐从科幻走向现实。
浙江大学求是特聘教授、浙江人形机器人创新中心首席科学家熊蓉在2025蓝鲸"人形机器人"高端闭门研讨会上分享了具身智能机器人发展挑战以及落地进展,蓝鲸新闻在现场独家对话熊蓉。
浙江人形机器人创新中心成立于2023年,发展核心便是围绕着打造一个能够智能作业的具身智能人形机器人进行展开,熊蓉希望赋予人形机器人可泛化、高精准的移动作业能力和快速便捷的开发部署能力。
通过诸多行业应用调研,浙江人形机器人创新中心不断推进打造人形机器人本体和大小脑相关软件算法。尤其是在机器人的操作技能上,依托具身智能相关技术赋予机器人多场景下可泛化、高精度和高可靠的操作能力。据熊蓉介绍,早在去年8月份,旗下人形机器人已经实现在双脚直立的情况下做大幅度拟人的动作、操作工具实现高精度操作任务(如打螺丝)以及开放杂乱场景下的端到端自主决策任务(如端茶倒水)。
浙江人形机器人创新中心于2024年发布首代产品领航者二号,它的手臂作业能力可以达到5公斤的负载和0.1毫米的精度
她表示这两年产业界和科技界的两大热点词汇是具身智能和人形机器人,但从最终发展视角来看,其实要打造的是能够具身智能作业的机器人,人形机器人代表一种通用的形态,能够更好地去适应人类生存的环境。蓝鲸最前线栏目独家整理熊蓉在会议上的分享内容,以下:
一、人形机器人是具身智能最大的挑战者
当具身智能和人形机器人交融的时候,它能够形成我们期望的多功能的机器人,去取代原来基于某个特定任务打造的专用机器人。
近两年,国内外对于人形机器人的市场预测越来越乐观,去年11月份,花旗银行发布预测报告,预计人形机器人相关产业在2030年能够达到百万的市场,到2050年在整个机器人市场占有率排位第三。
人形机器人能不能落地,关键在于具身智能技术。早在上世纪50年代,图灵就给出了具身智能的定义,核心在于通过行为表现而非内在机制来判定机器是否具备智能。之前计算机、人工智能的发展,我们更多关注的是感知智能,它不需要跟物理世界发生接触,通过语言、文本、图像、视频,我们就能够对里面的物体进行认知。
现在技术正由专家建模求解转为数据驱动学习训练,由模块解耦分离转为感控一体端到端。为什么会发生这样的改变?因为传统专家的知识经验只在限定框架内适用,一旦超出范围就不适用。因此,我们在传统机器人使用中经常看到,换一个场景、换一个作业任务,需要专家不断地介入或进行参数调整。
面对现实中的各类复杂场景,我们可以通过积累数据形成现在通用的语言大模型、多模态大模型,希望通过行为数据的不断积累,能够让它具备行为智能。
通过具身智能技术,我们可以去让机器人适应更多的场景,减少对专家知识的依赖。同时还有一个重要意义,当我们做感控一体端到端方案的时候,能够降低对感知准确性的影响。当前大模型的泛化性足够,但存在准确性不够的问题。如何提高感知准确性、让行为保持正确是我们需要解决的问题。
作为通用形态,人形机器人将会面临更多的作业对象和场景。又因为它本身的自由度特别高,全身的自由度通常大于30个,而且运动模式多,在这些情况下面,我们其实很难用传统的专家建模、机理控制的方式去做,所以我们说人形机器人是具身智能最大的需求者。同时因为它特别复杂,从而也使得它成为具身智能最大的挑战者。
二、人形机器人为什么这么火热?
人形机器人的火热来源于社会发展需求和技术发展支撑两方面因素共同推动。
一是社会发展需求。人口老龄化问题正逐渐成为国内外面临的一个重要问题,如生产制造、康养护理等领域均需要有机器人来补充空缺劳动力。
传统工业机器人已经在工业自动化中发挥了极大作用,现在工业自动化还需要大量应用人的双臂手,甚至有些场景需要调动全身协同能力完成,这要求机器人具备较强的在有限空间内进行灵巧作业的能力。当前已经投入应用的专用机器人并不非不能用,但需要将功能拆解为多台机器人完成,占用的空间比较大。尤其是在柔性生产制造方面,还需要依赖专家编程,因此目前发动机、底盘、电气、装饰等装配工序90%以上仍需要人完成,组装需数小时到数十个小时不等。
社会发展亟需把人形机器人和具身智能技术结合,打造新型通用作业机器人。这其中,具身智能是重要技术基座,可降低专家编程依赖,提升自主适应能力。
对于未来康养护理、家庭服务机器人来讲,最佳的形态也是人形机器人,但是它面临着场景、任务多以及可复制性等等问题,这些都对具身智能提出了一个极大的需求。
二是技术发展支撑。随着大模型、生成式AI、合成数据、大算力等技术创新,具身智能技术进入到了一个新的阶段。这两年具身智能技术的发布层出不穷,可以总结为两大类:
一类是人形机器人拟人化鲁棒运动能力大幅提升。用人机动作行为映射学习,加上仿真平台里面的强化学习,让人形机器人有拟人化灵活的运动。国际上对于如何进行全身跟踪控制提出了多种方法,国内宇树也在他们的小机器人上展示了灵活运动能力,同时也有研究机构在研究多地形的稳定行走。仿真强化学习较好地解决传统专家对机器人建模的不准确、环境扰动、无法建模等问题,有效提升运动的鲁棒性。
一类是语言-视觉-行为大模型VLAM初步形成。从早期的谷歌语言-视觉-行为串联,到去年提出来用遥操作数据去学习长序列构建一体化的架构,到今年的分层式架构,上层用语言视觉进行行为决策,下层进行上身体高速运动控制,并进行两层联合训练。在数据积累的情况下,人形机器人能够去做一些抓放、拉拉链等一系列工作。
三、距离真正的落地应用还有多远?
热潮背后,我们还要看到现有技术距离真正的落地应用还是有着很大的挑战。
根据去年Gartner发布的产业技术成熟度曲线显示,人形机器人、空间智能、具身智能、行为大模型整体处于产业早期发展阶段。我们现在正进入到一个技术快速发展、公众对技术期望快速膨胀的阶段,但是它离真正的落地应用还面临着多个挑战:
挑战一是人形机器人运动学习偏复现/遥控,尚需提升作业臂(有精度和负载)下的上肢大幅运动、负载作业、智能移动作业、并满足作业精度要求。
具体来讲,我们虽然现在能够做到灵活运动,其实每一个运动序列都需要反复训练,而在里面它还是依赖专家知识经验去进行网络的调参,然后来实现功能,所以我们看到的相关演示都是片断式的,或者是特斯拉那种遥操作方式。
挑战二是VLAM行为偏简单,动作类别少,缺少力触信息融合、工具使用等。现有VLAM融合了视-抓-放-移,形成视觉-轨迹的端到端控制,主要为小范围场景行为,缺少旋拧、插拔等力触动作、多指协同、柔性物体操作、工具使用等。
比如人形机器人在桌子上学习得到的视觉和轨迹映射,一旦变更场景就需要重新采数据、进行训练,所以它的泛化性比较差。这与我们只是简单地做感知和行为映射有关系,它并没有形成知识的学习,不具备人类知识学习和抽象泛化的能力。
挑战三是交互行为学习训练数据匮乏。很多的应用场景涉及到柔性物体的操作、以及工具的使用,其中很多要求都涉及到力触等交互信息,而与互联网文本、图像、视频数据相比,当前机器人跟环境交互的数据非常匮乏。合成数据和仿真训练面临Sim2Real问题,遥操作采集则涉及设备、人员、标注等,成本高且异构迁移难。
挑战四是亟待突破可泛化、自适应与高精度、高可靠、高效率的兼顾。工业发展要求高精度、高可靠、高效率,而我们现在的柔性生产制造则希望它能够实现可泛化、自适应。
挑战五是亟需提升视-力-触传感器、端侧智能计算控制器和操作执行器。在执行器件方面,不管是关键零部件如灵巧手、环境交互的传感器以及端侧计算设备,均需要进一步提升性能,包括体积重量减少,精度、可靠性、寿命的提升等。
浙江人形机器人创新中心也从不同方面推动人形机器人及具身智能发展。在具身智能方面,我们在大小脑和数据采集方面做了一系列的工作,特别是提升机器人的操作技能。通过底层高实时、高精准的控制,能够实现大幅的运动和高保真,让人形机器人在双脚直立的情况下做大幅拟人的动作,以及操作工具实现高精度操作任务等,这是在去年8月份实现的。
目前的技术有多方面进展:运控方面,可以实现高实时高精准下的长序列新动作快速学习;操作方面,可以实现双臂-手-头协同的遥操作,轨迹更平滑、延迟较低,与此同时,还搭建了场景可泛化的Real2Sim2Real训练通道;可泛化高精准视觉伺服技术,可适应无标定、摆放误差、抓工具误差等问题,可适应少纹理场景……
未来人形机器人的想象空间还有多大?从工厂流水线操作到零售场景到家庭服务等等,新的应用场景探索还在随着技术进步不断向前推进。