清华大学教授、机器人控制实验室主任赵明国:
3月28日-30日,以“夯实电动化推进智能化实现高质量发展”为主题的中国电动汽车百人会论坛(2025)在京隆重召开!本届论坛汇聚20+政府有关部门领导、30+院士专家、100+汽车及相关领域的企业代表,共议汽车产业变革新路径。在30日召开的聚合型论坛上,清华大学教授、机器人控制实验室主任赵明国发表精彩演讲。以下内容为现场发言实录:
清华大学教授、机器人控制实验室主任 赵明国
大家下午好!今天非常荣幸能参加百人会的活动,正好我们机器人行业的两位老前辈也在,我也特别荣幸跟他们汇报一下我们对人形机器人的思考。因为大家知道现在社会上人形机器人成为一个新的关注热点,刚才王老师也讲了和整个具身智能复杂的关系。所以,我特意梳理了一下关于人形机器人应该怎么发展,因为现在没有达成一个全社会的共识,我所从事的是机器人踢足球,我就介绍一下在具身智能交叉点方面的思考。
机器人踢足球和人工智能之间有一个关系,其实在二三十年前就已经在发生了,我介绍一下,也介绍一下我带领的足球队的整个情况和2024年机器人活动的发展变化和一些思考。
RoboCup是人工智能的标准问题,这个问题是什么?在1997年的时候,大家做人工智能用国旗象棋和人做挑战,作为一个标准问题,这个问题1997年解决以后就在思考下一个标准问题是什么?有些学者提出来应该是用机器人踢足球,最典型的就是人形机器人,来解决这个问题。1996年的时候就已经开始在组建,1997年当这个比赛一结束,马上就开始了机器人踢足球的比赛,想试图解决问题。当初也给了对比,对比了下国际象棋和用机器人踢足球在人工智能五个方面做了对比,为什么说明它能够作为下一个挑战问题的合理性。现在对比这五个问题:环境、状态的变化、信息的完整性、传感器和控制的方式,这样对比,右面紫色这些内容恰好是我们今年要发展,包括具身和人形机器人主要的内容,也是主要的难点,所以这个问题一定要再解决。
为什么当年IBM要用深蓝战胜当年的人类?我总结了一下,先在象棋的领域里完善他的技术,然后把他的认知得到新的技术体现以后去用到医疗上面,因为后面推出了Watson系统,当年试图在医疗领域解决一些重大的问题,但是由于各种原因没有做成这件事情,但是这个模式并不等于不存在。下面由谁做成了?DeepMind继续完成了同样的模式,DeepMind先下围棋,在围棋领域取得突破性的算法,其实和当年IBM做的事情是一样的,但是IBM各种原因没做成,但是DeepMind把这件事情做成了,DeepMind在AlphaGo上取得了成果,做到AlphaFold,AlphaFold去年得了诺贝尔奖,而且Hassabis宣称未来10年AlphaFold可以大大缩短基因工程里面的问题,把这个时间缩短,可以解决人类在医疗方面的重大问题。所以大家看这两个结果是完全相同的,只不过一个是探索,各种各样的原因没有做成,但是另一个把它做成了,所以我觉得是非常重要的一个范式。
用机器人踢足球就是要解决人形机器人基础的问题,但这个问题在标准的平台上得到解决之后,我们再把它拿出来应用,就能够像这两个问题一样,如果其他条件都具备,就可能产生一些重大的社会应用。我个人觉得可以解决老年人的所谓“白发经济”的问题,包括工厂制造,这些都在探索,但是首先我们应该获得技术的,把技术通过这样一个平台,因为它太复杂。
谁在做这些事情呢?DeepMind有一个研究小组仍然在做这个事情,这是他在2023年、2024年发表在《Science》上的一篇文章,右下角这个小机器人上完全通过学习可以实现找球、踢球,包括跌倒了爬起这些基本的动作,我觉得这个非常值得我们借鉴,因为我们现在做了很多人形机器人,就想直接进工厂,就想直接解决很多社会问题,我是觉得方法不具备的情况下或者技术探明不清楚的情况下直接做,可能这个模式是存在一定的问题的,所以我一直在想试图在各种场合推广这个理念。
我们做了一个人形机器人踢足球的标准平台,但是DeepMind太小,没有办法承载这么多AI的应用。我们希望通过一个标准的平台,能够把感知、控制、决策这些任务能够加速过程。希望这个平台能够完成整个足球里面遇到的各种各样的问题,包括运动、感知、决策的问题,包括自身的决策和多个队员的决策,以及对方有对抗队员的决策问题,通过这个平台来解决。
在这个过程中,我们不可能一步做到位,所以我们也结合人的过程,所以现在大家看到很多视频里是有人遥控的,在现阶段是不奇怪的。在足球场上踢球这件事情,我们可以做到在这个场上,机器人可以自主完成踢球和对抗,但是一旦这个机器人出到场外,它就做不了了,因为在我们的算法里面很难对整个自然环境进行建模,给它设定角色规则,这是一方面。第二,它的决策相对简单,像人一样如何实现多个队员的配合,如何和对手之间对抗、站位这些决策,还是做不到的。这个时候让机器人怎么发展?我们就发展出一个新的方式,这种大的决策,机器人还做不到的决策由人来做,用遥控器来做,但是在近距离怎么操控球、怎么踢球这些任务,机器人是比较擅长的,就让机器人用AI来做,所以就是AI和人遥控混合这样一个形式,我们叫AI辅助,就是让它进行比赛。
大家看到这个结果,实际上是有人在后面遥控,但是在很多关键的任务上基本是交给,人的遥控器有两个键,一个是在重大决策的时候人遥控,在一些具体任务的时候推给机器人来决策,机器人就利用自己的感知来完成。这是我们做的。
在去年国际比赛上面有一些重大的变化,推了将近30年,但是中间受到很多影响,它发展比较缓慢,去年的时候明显受到了整个国际技术形势发展趋势的影响,发生很大的变化,我们希望这个机器人全部变成自主的,但是这个自主的要达成自主的能力必须完成下面用彩色标注的,一项功能比一项功能大,第一项是舆论能力,第二项是感知环境的能力,第三个是能做出正确的决策,再加上队员之间的合作,以至于和对方的对抗,这些能力目前在这个比赛上还很少能达成,我们还不具备这么多的机器人,人人都拥有这样的条件来完成。所以这个时候大家奇怪为什么机器人后面站着一个人,因为每一个参赛队的机器人都很宝贵,一旦摔坏了、一旦发生损坏比赛有没有办法进行,研究工作就没办法进行了,所以加了一个Handle。所以我们最大的目标是把这个Handle去掉,然后把二对二的比赛拓展到三对三、拓展到五对五,有了更标准的平台就可以做更多的工作。由于时间关系我就快速过了。
对于单个的机器人来讲,他需要控球的很多技能,技能方面包括行走,包括在场地上的定位或者是对环境的建模,就是我要知道世界的局面是怎么,包括其他球员在什么地方,动作包括踢球、避障、带球、过人、传球这些配合性的东西都是属于足球方面的技能。
这是去年做得最好的美国的UCLA队伍,无论从行走能力到它对球的操控能力都很强,这个就是典型的能直接射门,他没有去做,我们搞这个发现人类发展出一项进攻策略是有好处的,因为场地上有很多不确定性,如果直接去射门的话其实不占优,反倒这种传到底线再去完成任务比较有优势。
其他的几个画面都是当年比赛的情况,包括有自主发点球,包括两个队之间机器人发生碰撞非常强的对抗性,以至于不确定性。比如左下角这个机器人,就是由于它的决策过于缓慢,以至于被对手过来把这个球断掉了,其实它已经临门一脚就可以射门了,所以大家想现在人工智能的发展还没有达到和我们人类一样,所以出现各种各样的,大家在网上看到的买家秀和卖家秀情况,大家也不要觉得特别奇怪,我觉得现在这个阶段都是很正常的。
另外,对机器人来讲,如果要达到实用,在比赛场上的稳定性都非常重要,机器人经常会由于对抗、由于自身的稳定性、可靠性的原因造成一些问题,所以要达到稳定性,即使做得最好的冠军队,它在20分钟的比赛里面还是会发生4-5次摔倒。所以这个问题不解决,那就没有办法去在更复杂的场景应用。我们通过各种视频看到这个情况,几乎是为了展示未来的技术,尤其汽车行业更应该熟悉概念车是什么样子,给大家做个展示,通过大家的理解和反馈,再完善技术。一定是把扎实的技术做清楚了,一定要解决机器人的可靠性。
这是另外一个关于稳定性的,这个机器人球已经临门一脚了,但是由于视觉的不稳定或者随机的状况造成它五次在球门转来转去,没有完成射门,要想机器人在更自然的环境中解决问题,一定要具有更高的稳定性。
这是关于我们队伍的情况,我就快速地过掉了。
中间发展出很多过程中的技术,包括早期的以优化控制展开的,优化控制可以解决很复杂的问题,但是它不能应对各种复杂的问题,每一种情况都要单独做一些算法来解决,这样就对研发成本和对人员的要求非常高,我觉得后来就很难发展了。最后发展出来强化学习的技术,ETH和英伟达解决了这个技术,我十年前也参与到用实物机器人做强化学习的工作,但是对机器人来讲,在实物环境中,由于摔倒和各方面的原因,做实际的强化学习非常非常难,但是我们没有想到这种思路,我觉得这是非常好的经验和教训。ETH通过仿真做训练,得到一个策略再迁移到实物中来,把这个技术路径打通以后,所以大家看到这个机器人包括跳舞、打拳都能够完成,是这样一个技术在后面支撑着才能把这个事情做成,所以很多以前我们用优化做的任务都可以在策略下面、在仿真环境一次做成,顺利地迁移到现实中来。
这是最新做的,让这个机器人能够,包括全向行走,包括前进、横移、后退、转弯加复合运动,都能够顺利完成的话,比赛中运动的部分就可以顺利完成了。
思考是这样的,对我们的机器人来讲经历三个阶段:第一个是阶段是简化模型,解决一些简单问题,再就是用优化的方法解决多任务的问题,但是环境变成了动态环境。再变成了以学习为主的,这样解决全身和长程的操作行为,比如比赛从带球一直到把球踢到对方门里需要一个很长的过程,而且是自然动态的环境,这些问题的解决,现在具身智能恰好和这个结合得非常非常紧密,对人形机器人来讲,手部的具身智能、腿部的具身智能,以及全身整体的具身智能,目前大家在研究全身智能方面花了很大的功夫。
澄清几个问题,对人形机器人来讲,比如现在,在遥控器的控制下,它是有AI算法或者强化学习算法,能够完成行走,它是用了本体的感觉,也能够最后完成这个任务,这是一个比赛中小的技巧,但是我认为这个不是标准的具身智能,完成一个动作的表演,没有对外部世界的感知,这个机器人能够感觉到这个球,它的任务是在AI下面自主完成找球、自主走向球,对球最后要踢一脚,这个时候可以跟人进行交互,所以它的每一次行为是你不知道的行为,但是我们又知道它的决策过程,这是标准的具身智能问题。
机器人要想完成踢球,就要完成全向的行走,对球的控制,这已经升级到下一个带有视觉反馈的具身智能,包括对环境的感知和最后到摔倒的时候要爬起来把这个工作流程完成,所以很多人都做了一些工作,包括我们自己也在做,用这种方法取得了一些最新进展,我就快速过了。
我们也在做第二阶段的任务,就是这个机器人完全在在视觉导引下能完成带球和到最后,完全在学习的情况下,能够通过找球、踢球,用一个端到端的网络来完成,希望这个能促进真正具身的人形机器人的发展。
谢谢大家,这是我们做的工作。
评论