刘文尧:产研向高而行,解锁高阶智驾新思路
2024年7月11-13日,2024中国汽车论坛在上海嘉定举办。本届论坛以“引领新变革,共赢新未来”为主题,由“闭门峰会、大会论坛、10多场主题论坛、9场重磅发布、主题参观活动”等多场会议和若干配套活动构成,各场会议围绕汽车行业热点重点话题,探索方向,引领未来。其中,在7月12日下午举办的“主题论坛五:高级别自动驾驶加速,驱动未来出行革新”上,地平线智驾产品市场总监刘文尧发表精彩演讲。以下内容为现场演讲实录:
非常荣幸能在这跟大家分享一下地平线最新在高阶领域的进展以及我们对后边高阶发展的一些想法。
刚刚主持人也说过,我们现在在智能化上给世界各地的其他市场都带来代际差的感觉,最核心的代际差来源是高阶智驾系统。正好跟我们的第一页呼应,我们现在看到了中国以外的汽车行业的企业家,不管是特斯拉这样的行业后起之秀,还是像大众这样传统的汽车巨头已经非常肯定中国在整车新能源的市场,智能化市场的领先性。
在整个中国的市场上我们可以看到,电动化可以说是最近几年汽车行业蓬勃向上发展的原始动力。但是从去年开始,我们已经明显发现高阶智驾领域成为后边持续做智能汽车代际差的核心动力。大家重点看两个在去年发布的关注度很高的车型,一个是20-30万元之间的小米SU7,还有30万以上的甚至更豪华的50万级别市场当中的问界M9,这样的企业都是来自于以前3C领域的背景,它们通过智能化去定义新的豪华。包括胡总提到智能化才是真正定义新的豪华的核心的地方,把整个智能汽车的智能化的竞争,从原先只属于30万以上的市场拉到现在在20万以上的市场当中,也有非常激烈的竞争。甚至大家可以看到在20万以内的车型,也开始部署高阶的智能驾驶的功能。从去年开始,在新能源领域,想卖出一个比较贵的20万以上的车型,在消费者的眼中,高阶智驾成为必不可少的功能。
地平线内部从产品的规划上一直很看重美国科技圈的一个理论叫做“跨越鸿沟”,这个理论是讲:任何高科技的新的功能都需要走过创新者、早期采用者、早期主流用户时间的周期,核心突破点就在于中间的早期采用者和早期主流用户之间的这样一个gap,这个是跨越鸿沟理论核心的点,这个鸿沟就在这13.5%到后面的34%中间的时间点。如果把它投射在现在的高阶智驾领域市场的渗透率上来看,其实前几年真正能够在行业当中用得起高阶智驾系统的车辆基本上都还是在高端车型上。从去年开始,我们看到往更低价格的车型、往早期采用者方向渗透。真正能够看到带来跨越鸿沟的点,有两方面关键的因素:
第一,大家已经经历的汽车行业的内卷——单纯地互相竞争智驾是什么样的配置,有什么样潜在支持的功能。但是光有这一点不够,毕竟智驾是科技驱动的属性,而不是单纯因市场竞争带来成本竞争的行为。
第二,真正关键的点是它的体验需要有一个能让用户很认可的突破的变化,才有可能真正实现从早期采用者到早期主流用户的跨越,实现产品的市场规模化。
我们对这个时间点的判断大概是在2025年底,2026年开始会有这样一个变化。目前来看市场也是这样一个驱动的演进形式。
这个市场的背景下,对于地平线这样一个芯片+方案的供应商来说,其实我们需要做充足的准备,在真正2025年的跨越鸿沟的决胜期之前做好足够的产品体验和技术上的预研。我们自己在整个经验上的总结来看,主要依赖三个维度的能力做高阶智驾的破局和引领,我们内部叫“铁人三项”:第一,技术的领先性。我们希望能够一直采用行业最尖端的技术范式,技术理念做产品的预研。第二,工程的千锤百炼,光有技术的尖度不够,真正在量产过程当中解决的都是非常繁杂的,双手沾满泥土的工程问题。第三,产品以人为本,毕竟我们产品落地以后,需要有真实的市场和用户来买账,需要让用户直接感受到这个高阶智驾系统足够好用。
这三个方向是真正支持我们打造跨越鸿沟产品的三个核心方向,后面根据这三个方向做展开。
第一,技术上的引领性。
地平线是软硬一体的公司,其实在创业初期对软件的理解远大于对硬件本身的理解,因为我们创业团队很多都是做软件出身的,我们一直保留着对软件前瞻性的深度挖掘。
在2022年我们其实就已经公布了基于端到端感知算法的Sparse4D,主要是针对稀疏性的感知、现有的BEV架构做进一步性能的优化。
2022年年底发布了业界的第一个真正完整端到端自动驾驶大模型UniAD,在2023年初获得CVPR的best paper。这个更倾向于one-model的架构,也是后续成为一个行业做自动驾驶研发的端到端技术的benchmark。
UniAD是超前的技术架构的理论,但是我们现在行业当中主要用的还是two-model的架构,需要有一个端到端的感知和一个端到端的交互博弈、规控的策略。我们在模仿学习和强化学习上,针对规控的应用做了很多深度的技术的积累,不管是生成式的规控,还是混合强化学习的方法,我们都发布了相应的paper。
第二,工程千锤百炼。
前面有了技术上的引领性,还需要有足够双手沾满泥土的工程化的经验。
这是地平线相较其他行业的初创科技公司比较不同的地方,我们一直以成就客户为核心的公司理念,所以截止到今天已经做了无数多的量产项目,110+以上的量产车型,已经陪伴用户走过百亿公里的行驶里程。这些都意味着我们有充足的基础设施建设、跟客户以及用户对接的量产经验,能够帮助我们更好地将领先的技术落地到实际的量产环境当中。
第三,产品以人为本。
这个也是我个人的老本行,我是做产品市场出身,也是这次演讲当中希望重点能跟大家展开的,究竟是什么样的产品才是我们认为的能够有这样跨代体验进步的高阶智驾的产品,以及通过什么样的方法才能做得出来。
对于智驾,如果清晰地把它定义为三个用户可理解的阶段,会定义为:可用、好用、爱用。
从现在的智驾环境当中,实际上认为大部分的城区高阶智驾系统连第一个阶段“可用”的标准都没有达到。高速NOA勉强可以达到“可用”的标准,正在往“好用”方向演进。高阶智驾达不到“可用”的核心原因主要有四个方面:
1、怂,在很多拥堵复杂的城区场景当中过于关注安全性的保守智驾策略,导致通勤效率极低。
2、莽,不得不为了规划的轨迹和路线去行驶到一个拥堵的没有人让车的环境当中,现在的系统会呆滞在那,做不出选择,造成人为的截断。
3、急,跟现在行业当中主流的基于地图的技术路线有关,急迫的开城节奏造成了系统整体可用性下降,虽然是开了城,但是有地图覆盖的城市和无地图覆盖的城市体验有非常大的波动性。
4、贵,高阶智驾系统对于汽车售价的价格区间并没有那么高的汽车厂商,全部做标配其实是很难负担得起的,只能在比较高的配置当中用。它其实根本起不到真正普惠给用户大规模部署的作用。
怎么去解决现在不可用的问题?我们在2023年年初就公布了当时对于解决“好用”这个问题的逻辑。我们当时把“好用”分解为两个方向:一是Scale Up,二是Scale Out。
Scale Up怎么理解?大家可以理解这个系统在解决非常难的场景时候的能力上限,它到底能不能真正像人一样去解决非常复杂的交通场景当中的通行问题。如果我只能像一个特别机械的工具一样,复杂场景中在那等着,其实是不够Scale Up的能力。Scale Out其实就是能够在更多的地理环境、时空环境、天气环境下去达成我们刚刚所说的场景通行的能力,它是一个泛化性的概念。
现在整个行业当中,其实既是有Scale Up做得特别好,也有Scale Out做得好,但是很少能把Scale Up和Scale Out同时做好,中间的这个像基因双螺旋的形态,才是真正的用户希望的好用的智驾系统。地平线希望借助我们在算法,自己的芯片基础设施,以及工程能力上的积累去尝试同时解决Scale Up和Scale Out的问题。
为了让大家更好地理解Scale Up和Scale Out问题,我们举了两个现在行业当中最领先的自动驾驶相关科技公司的例子。
如果看Scale Up,做得好其实就是Robotaxi当中最领先的Waymo,上面视频可以看到,在亚利桑那首府菲尼克斯,还有凤凰城、旧金山能够支持自己的Robotaxi运营的区域当中它会有非常好的通行效率的体现,各种各样的罕见的障碍物,包括诡异骑行的小哥都能做通行的绕行。
下面是特斯拉,特斯拉从Scale Out上讲是泛化能力极强的一个系统。首先它是在一个非常明确的量产环境中做的,跟waymo改装车的环境是不一样的。第二个是它系统整体的泛化性是非常强的,在美国的各个区域基本上现在可以做到都能开。即便如此,他们在非常特殊的一些城区环境内还是会出现非常不类人的接管问题,它的上限虽然很高,但其实下限也很低,它的稳定性有很大的问题。
可以看到行业当中最领先的玩家在Scale Up和Scale Out上是很难去做到同时兼顾。它的核心原因是跟它本身现有的行业主流技术栈有关。
刚刚已经聊到行业主流的方案基本上都是two-model,真正落地的没有one-model的完整的端到端的形态,大家基本上还是按照感知和规控的方式做。这种two-model的方法基本上就有两个方向:一是感知接一个rule-based规则驱动的规划和控制。二是端到端,感知是一个端到端,同时导到一个基于神经网络(NN based)的规控当中,最后接控制。这两种现有的two-model based的技术架构都有各自的系统限制。传统的规则控制的系统当中,它的性能上限在城区当中非常有限,尤其在中国复杂的价值环境当中,每一个城区的复杂场景很难由一个清晰的规则描述出来,但是它的好处在于,在一些复杂的场景当中,能够有一个硬规则去规定它的下限。
端到端的技术路线由于是数据驱动,它的上限表现更高,明显在更复杂的场景当中有更好的体验。但是由于它是一个不可解释的黑盒模式,那么完全放弃规则驱动意味着它的下限不可控,很有可能出现人无法解释的一些诡异的驾驶安全行为。而且在这个行为出现的情况下,很难对它做一个快速的bad case迭代,因为你自己都解释不出来它为什么会这么做,根因很难找到。
Scale Up的问题是由端到端和rule-based来去呈现的。那么Scale Out的难题就跟现在行业当中最热的是否有图还是无图的话题联系在一起。
传统意义上来说,我们最先实现高阶的系统基本上重度依赖高精地图,依赖高精地图,大家都能理解,地图覆盖的地方就可以用,地图没有覆盖的地方,这个功能无法启用,这是一个广度的问题。还有鲜度的问题,比如说我地图覆盖的地方和现实实际的场景出现了偏差。比如说现实的道路维修了,拦上了施工的区域,地图的信息没有及时更新,这个功能就会出现降级甚至出现接管。如果从体验里程的连续性来说,重地图的路线会出现中间不可避免的断点。同时由于重度依赖地图,体验上限不会高,因为人不会沿着地图上画出来的固定轨迹线路去开。
行业当中比较流行的轻图或者大家所谓的无图的路线,它能够很好地解决原先高精地图去制约的场景覆盖的问题,也就是说即使没有高精地图覆盖的地方,通过感知去输出动静态的信息,可以让它功能开启,而且功能的连续性也会得到一定的保证。但是它的问题在于,体验的波动会非常大,有图覆盖的地方和无图覆盖的地方,体验的波动性会非常明显。从一个有图覆盖的大城市,到完全没有图覆盖的乡间小路,智驾本身体验就会有非常大的区别,而且在面对一些复杂的拓扑结构时就会非常难应对。
我们如何同时解决刚刚说到的现有行业当中的Scale Up和Scale Out难题?
地平线在今年北京车展发布了SuperDrive高阶智驾系统最新的进展。当时没有具体地讲我们在背后的一些技术上的思考,这一次也是把背后的技术思考跟大家汇报。
在感知上,我们引入了world model的概念,world model是现在行业中机器人领域比较领先的理念,人在思考过程中,做任何的决策都是来自于大脑当中的一个世界模型。它是一个对世界整体的认知,我们在认知当中去做相应的规划和决策。它跟传统的端到端感知很大的区别就是我们会把所有的传感器的信息,以及泛化性做得比较好的标清导航的信息全部扔到world model模型当中做训练,后面产出动静态和高维特征级信息。它能够很好地解决不管是重图还是轻图对于地图的依赖性,因为标清的导航信息从广度和鲜度上来说,已经是行业中解决得比较好了,导航当中有足够多时间维度的信息,以及下一秒用户驾驶决策的提示信息。
在这个情况下,我们用导航泛化性比较强的信息训练我们的模型,就能摆脱它对更高精地图的依赖,这个时候不管再有众包的地图,还是高精度地图,它都是潜在的世界模型训练的一个可选输入,它不再是一个必选输入。这个情况下,world model可以自己脑补或者补全地图缺失或者地图信息不全的地方,这个更接近于人开车。
举例,大家在开车过程当中,如果我在中国开十几年的车,突然有一天去美国或者欧洲,你很难想象我需要在那先去踩一遍图再开,实际上就是可以直接去开,通过world model可以解决场景的泛化、功能的连续性以及体验的一致性的问题。
在world model之后,我们引入了一个数据驱动的交互博弈的规控算法。这个规控算法和传统的NN based区别在于说,我们其实保留了rule-based的链路在。为什么这么做?其实就是刚刚我们所说的核心的原因,如果我们只保留NN based规控的决策,它的上限可以做得很高,同时它下限很低。引入rule-based在一些关键的安全产品当中去依靠rule-based兜底,很好地保证系统的下限能够符合我们的安全的场景。比如说在行人礼让当中就更依赖rule-based的方法来做。
中间就是依赖着world model对规控产出两个层级的信息:一是传统意义上的动静态的信息,二是为了我们后续向更完整的one-model方向发展的无损的高维度的特征级信息,这两个做结合,才能做到同时的Scale Up和Scale Out的突破。
world model核心想要达成的目标就是将现在的感知所面临的稳定性的问题,上限不够高的问题,准召率的问题能够通过端到端one-model的方式做到解决。
如果把world model和传统的地图的概念去做一个对比,其实world model是一个更拟人世界认知的模型。传统的地图是根据人为制定的某种规则,把世界当中某一些信息抽象出来,不同精度的地图就是不同精度规则的区别。world model更趋向于人对世界的认知,我们认知世界当中的很多的信息,如果只是靠地图抽象,其实就已经通过这种规则给筛选掉。world model是更无损地还原车辆对世界的认知,这个时候只要导入足够多的传感器,足够多的导航的信息,就能够很好地训练AI Driver对世界的领会和认知。
这个就是现在一些感知层面world model所输出的一些效果。大家可以看到不管是在行人的鬼探头,还是复杂路口当中各种各样的群体的行人,包括施工区域,以及停车环境当中的小区的抬杆,world model都会更稳定、更精准,更及时的感知结果。
交互博弈,这个是在规控层面上的一个新的理解。传统意义上来说,大部分的规控,如果你只是基于规则驱动,就会遇到最早说的“怂”的不好用的问题,过于保守。如果你用单向的方式让它博弈,它就出现过于“莽”的问题,我们现在其实通过数据驱动的交互博弈的方法,能够在有限求解空间当中做更拟人的最优解。
如何去做到这一点?实际上把原先的单向式的串行的预测决策链路变成一个交互式的,互相推演、演进的交互决策的链路。这样的方式能够让它更拟人,更摆脱传统的规则驱动下的机械感。
从功能的设计上来说,我们现在的功能的实现倾向于没有更多的功能的区隔。传统意义上来说,行业当中喜欢把智驾放为L2、ICA、高速NOA,程序NOA,分为泊车,实际上真正一个好用的智驾,对用户来说只有一个模式的切换,就是切换是人在开,车在看,还是车在看,人在看。人在开,车在看的时候,就是主动安全工作的时候,车在开,人在看的时候,就是一个高阶智驾的L2+的功能的实现,根本不需要有那么多功能的切换,启动了就是启动了,启动了就是你把驾驶权交给车,你来监督它,不启动就是驾驶权在人自己,车来替你兜底,就是这样一个区别。
我们其实是希望底层有一个Always ON主动安全的系统,一直帮助你在人开的时候,能帮你做安全的兜底。在系统启动以后,上面所有的程序场景、高速场景、泊车场景都是通过一个功能,在用户端都是一个功能实现的,用户只需要解决我要去哪,我要停在哪的问题。这个车开到目的地以后会自动给你在界面上提示出你潜在停车的位置,选完之后直接泊进去,上车之后开启功能,只需要向他输入,你要去哪就可以。甚至你不输出你要去哪,它也可以自己开。
刚刚是软件和产品层面的信息和规划。那么我们整个SuperDrive产品的落地是在征程6旗舰芯片上,也就是征程6P。从整个的芯片的Performance来说,针对传统的CNN的算法以及最先进的transformer算法的FPS的表现,相较行业其他芯片有明显的优势,这是来自本身在软件上的一些理解,以及我们软硬结合的特别优化。
除了芯片之外,我们SuperDrive是一个完整的从软件到传感器硬件,到芯片的完整的解决方案。在传感器上,我们并没有非常地激进部署很多车载激光雷达,很多车载高清摄像头,我们选择相对折中的。11颗摄像头,两颗前视是800万像素,剩下的还是主流的200万像素的摄像头。车载激光雷达我们只有前向的一颗,毫米波雷达我们有三颗,一颗前向的,两颗后角的毫米波雷达。
从产品的功能层面上来说,我们希望最后给用户的是一个不管在什么样ODD的场景下都可以一键开启的,模式上不需要有太多的切换,不要让用户使用成本或者学习成本非常非常高,甚至于你要路线记忆,记忆完了以后再重新开一遍,还有可能记忆过程当中图没有记忆完整。最后就是能够在各个用户旅程上都能够给他们提供比较完整的、体验不断点的好用的智驾系统。
最后其实是一个比较短的我们现在的DEMO车的进展,这个其实是拍摄于车展期间,是在北京和上海的一些比较高峰拥堵的道路上。大家可以看到我们其实现在在引入了交互博弈之后,在城市环境非常复杂的路口和行人的环境当中,它已经可以做到非常自如地礼让和启停,不会像现有的量产系统一样就会傻在那里。比如我们现在在上海其实特别明显,我们看到这样一个路口,如果非常多的骑行人穿行的话,现有的量产系统很有可能就会傻在路中间,即使它不会让你接管,你不over ride的话,可能它永远也不会过得去。我们现在其实就能做到更拟人的驾驶路线和策略。
这里面其实是说,我们变道的果断性,大家看到我们其实是要往左去做变道的,变道的过程当中,包括做这种无保护左转当中,很有可能出现对向的车流或者你旁边的车流不去礼让你的情况,这时候你需要有足够的能力去博弈。这其实也是我刚才提到的变道的问题,在中国经常会遇到旁车根本就不会让你变道的情况,所以就需要有足够强的插空的能力。
从落地的实践上来说,我们希望的目标时间点,最终量产时间就是在我们觉得跨越鸿沟的那个时间之前,在2025年Q3我们希望能够做首款的量产合作车型的交付。在今年的年底,我们会先去做一个基于现有开发环境的标准量产方案的推出,同时去解决Scale Up和Scale Out这样问题的标准版量产方案。希望大家能够去期待我们Horizon SuperDrive之后的表现。
谢谢大家!这是我的分享内容。
评论