于乾坤:自动驾驶的技术演进与研发挑战
2024年7月11-13日,2024中国汽车论坛在上海嘉定举办。本届论坛以“引领新变革,共赢新未来”为主题,由“闭门峰会、大会论坛、10多场主题论坛、9场重磅发布、主题参观活动”等多场会议和若干配套活动构成,各场会议围绕汽车行业热点重点话题,探索方向,引领未来。其中,在7月12日下午举办的“主题论坛五:高级别自动驾驶加速,驱动未来出行革新”上,智己汽车L4自动驾驶项目总工程师、赛可智能CTO于乾坤发表精彩演讲。以下内容为现场演讲实录:
各位领导,各位专家,各位朋友、同仁们,大家好!
首先介绍一下公司的情况。我们是上汽赛可智能,也叫上汽AI LAB,现在跟智己汽车一体化紧密合作,主要是负责集团的L3、L4级的战略的落地和执行。2021年年中开始,主要负责集团Robotaxi的项目,目前已经完成了两代Robotaxi的研发和落地,刚刚在吴总PPT上也看到我们的车。从开始1.0的版本是2012年顶着非常高的机械式激光雷达,2022年把现在量产车比较常用的固态激光雷达率先用在Robotaxi的车上,然后提出了第二代的Robotaxi的方案。目前我们正在和智己汽车一起打造第三代Robotaxi的技术方案,目前还没有公布外形,但是整个的外观更加的漂亮,而且完全面向量产化、一体化进行设计。整体而言,将会是另外一个比较惊艳的产品。
除了L4自动驾驶,我们在L3自动驾驶也取得一些成绩,去年年中,我们把L4上面的一些技术降维应用在L3上面,参加了工信部首批的L3试点准入的申报。今年4月份的时候,工信部公布首批乘用车试点企业,一共是7家乘用车和2家商用车,我们是其中7家乘用车之一。接下来我们也在筹划将L3技术导入到真正的量产车上,敬请大家期待。
接下来从三个方面来谈一下对于自动驾驶的认识。
一、自动驾驶的技术演进。
技术演进离不开特斯拉的技术路线,特斯拉的技术演进的方案列出来,可以清晰看出它的脉络。
从刚开始的2016年之前以Mobileye作为主要的供应商来做,采用赋能的一种研发的方式。2016年之后采用基于英伟达的硬件自己在上面开发了一些软件,这叫智驾1.0的方案,通俗来讲是,感知采用一些数据驱动的方案,但是下游的定位、规控等还是采用规则化的方法来做的。
2021年随着HW3.0发布,它在自己的FSD的芯片上放置了BEV transformer网络架构,把感知的上游,从传感器的输入一口气做到预测阶段,同时也在规控上引入初步的半数据驱动的策略。
2023年初开始,号称是采用了完全端到端的V12版本,引发了业界引发广泛的讨论。它的推出,用马斯克的话是从30万行代码下降到几千行,整个的开发复杂度大大下降。
这是特斯拉的自动驾驶技术的演进。
这是他2022年所公布的2.0方案的多阶段独立数据驱动的一套方案。整体来说在整个规则方法的框架下,提出如何以端到端数据驱动来替代。
我们拿出了两个版本的对比。左边是V11版本最好的结果,右边是V12版本的结果,为什么放这两张图?想跟大家一起分析一下它的技术架构。
左边图片和右边的图片都是在仪表盘上的结果,一是我们可以非常清晰地看到周围的车、人的位置。试想,如果采用全端到端的数据驱动,在AI模型的不可解释的情况下,原则上中间结果不太可能输出一个让人看、感觉比较好的一个结果。我们推测,它的端到端的自动驾驶的方案的重点还是在预测规控上,把感知端的一些结果以某种形式,比如说传递一些特征层,传递一些感知结果,通过解码器输出一组较好的轨迹。
另外一个是发现在仪表盘上,即便看不到前面有一个锥筒,也就是感知漏检了,但是有时候车仍然可以绕开,这个其实也可以给我们提出新的启发:感知并不只是把结果输出给下游,而是把中间的各种Feature输出给下游。这就是我们所说的神经网络里面传播的一些人类无法理解的一些向量信息给到了下游,而在仪表盘上演示不出来。这是我们对他整个技术方案的推测。
在这样一套框架下,左边(图)展示的是规控结果的对比,可以看出同样一个场景在停车场内偶遇左前方的来车,可以看出左边的车规划的轨迹比较长,而且每两帧之间的轨迹之间跳动是比较大的,这就说明采用了一种基于采样的规则的方法。右边(图)轨迹比较短,这是我们发现的一个比较有意思的结果。
因此,我们对整个自动驾驶的自己演进划分为三个阶段:
第一个阶段,只有感知做数据驱动。比较常见的做法是拿Mobileye的感知配一个规控,然后两家独立来做,这是主机厂最喜欢的做法,甚至硬件再给到另外一家,便于把控供应商。
第二个阶段,从2021年开始,随着BEV技术的演进,尤其是高级别智驾不断地落地部署,提供自动驾驶的全栈解决方案的厂商越来越多,按照传统的做法,把感知给一家,规控给一家,再把它们集成在一起的做法,往往起不到很好的效果。在高级别智驾NOA开发上,高速高架NOA、城区NOA,其实这个上面开发的时候吃了很多苦头。
第三个阶段,2023年之后随着端到端大模型的应用,尤其是自动驾驶的应用,相当于引领行业的风潮。昨天小鹏汽车提出,建议现在大家果断地转端到端,不要有任何的犹豫,也是这么一个看法。现在整个行业对自动驾驶的未来技术路线的看法比较一致,那怎么做呢?端到端模型的智驾应用,我们把它分为两个阶段:
第一个阶段是two-model的方案,分成两个大的模块分别做端到端。第一个端到端比较好理解,从传感器一直到预测轨迹输出。第二个(端到端)是从感知结果,有可能从预测结果到轨迹生成,成为two-model的方案,这是目前业界用得比较主流的一个方向。
第二个阶段是一把到位的方案,two-model的方案因为中间存在显式的输出,必然会存在一些信息的损失,很难充分地利用好传感器的信息,所以one model的方案有很多人做前期的研究,这个也是一个跟AGI更加接近的一个方向,但是这个研发的难度也是比较高的,我们预估要到3-5年之后才会得到一些规模化的应用。
二、端到端工程化的挑战。
在端到端自动驾驶的方案工程上会面临哪些挑战?
重点说一下大家普遍采用的two-model的端到端技术路线。感知部分也没有什么可说的,有监督的训练,BEV transformer大家已经做了很多,只不过加一个head,一步输出到预测结果。
因此,整个技术架构的关键在于你的决策规划模块能不能从传统的规则体系升级到端到端的数据驱动的体系。我们现在在做传统方案的时候,从感知、定位、预测、规控分为不同的模块,预测部分是离决策规划最近,最常见的端到端预测规控的做法是以预测的模型为基础,除了输出他车的运动轨迹之外,还要输出自车的一组运动轨迹。数据来源也很简单,就是人类驾驶员的数据,这是大家比较朴素的一个想法。
我们在下面画了一个大概的流程图,简要描述了端到端预测规控的做法。从感知模型,除了输出感知结果之外,还要把feather传递给下游,在预测模型之外再输出一些planning的一些轨迹。
对于这一套预测规控的端到端决策规划模型而言,一般认为输入会有五个方面的信息:
1、其他交通参与者的历史轨迹信息。
2、一定范围内的地图信息或者地面标识信息。
3、导航信息。因为要知道接下来下一个路口要不要左转或者右转。
4、路口的红绿灯信息。
5、自车历史的运动轨迹。
这个也是按照第一性原理所做的,输出是除了输出自车的运动轨迹之外,我们认为还要输出其他交通参与者的预测轨迹。输出这个的目的也很简单,我们认为在端到端模型上车之后,规则方法仍然会有它存在的一个必要性。因为神经网络的输出具有一定的概率性,并不能保证结果一定是非常安全,没有什么问题的。所以我们还是要通过一些规则方法对神经网络的输出做一个二次的校验,这是端到端决策规划模型还是要输出预测结果的很重要的原因。
工程上面临哪些挑战?
第一,数据采集的完备性。
现在生产一款车,往往配置会有高低配,一般情况下摄像头配备比较全面的,11个摄像头+激光雷达,往往是这个车型的旗舰款,销量不会太大,走量的主要还是低配车型,把激光雷达什么都给干掉了,通常的做法是2R1V或者1R1V之类的传统L1、L2的功能。它的数据是有一定问题的。比如说你要做端到端模型,某一个路口要换道,你不可能不看后面的车流的情况,这个时候低配车型的数据直白地讲,对整体的端到端的预测规划,决策规划而言是没有什么用的,这也是数据采集的完备性的第一个挑战。
另外一个挑战是导航信息难以获取。现在录制一个数据包的长度往往是20-30秒甚至更多的35秒,但是有时候,如果是人类驾驶员开车,数据录制时间太短,并不知道接下来的路口左转还是右转,还是直行,它有时候会做出变道的决策,就非常迷惑性了,这个信息是不可或缺的,但是从仅有二三十秒的数据中,获取到导航的意图是很难的。
第二,数据采集的复用性。
规控接收上游的输出,上游的输出肯定要稳定,但是感知模型存在误检、漏检的可能性很大,信息可能会非常的不准确。同样规控模型在升级的时候,感知也在升级,之前基于老的版本的感知模型做的结果可能在新的感知模型下表现不一定很好。这个也是一个要解决攻克的点。当然,如果采用高精地图,地面标识的变化受到影响就比较小了。
还有一个比较关键的点,就是不同的车型之间的问题。刚刚说到高配车型本来就少,我用它数据的时候应该用越来越多的车型,肯定对我更好。但是不同的车型,它的轴距、载荷,甚至轮胎的磨损程度都是不一样的。这个时候绕行同样一个锥筒,哪怕是以同样的方向盘角度绕行,它对应的轨迹可能是千差万别,甚至差异特别大。这个时候怎么样将不同车型的数据统一到同样的坐标系或者同一个维度下,这个也是我们要攻克的一个数据采集复用性的一个很大的问题。
one-model端到端感知决策模型是一个模型,输入就是传感器的原始数据,输出是运动轨迹。它的主要难点是在算力和数据上,它对数据的需求量更大,需要收集原始的数据,基本上一个数据包比较大,对车端流量的要求非常高。另外对算力的要求。像特斯拉的规划是上百EFLOPS,国内规划比较多的像华为是3.5EFLOPS,后面都是一点几,可以说是海外的零头的零头,这个也是我们行业内的一个困顿的地方。
one-model的方案训练难度比较大,算力需求比较高。two-model相对训练精度比较小,在当前资源有限,尤其是高端的显卡被限制的情况下,大家的突破除了two-model也没有什么可选。
我们实践的情况也是采用two-model的架构,分为感知和预决策两个模型,以BEV modle作为感知核心的一个框架,再输入下游的预测规控的模块。
三、上汽L3/L4的端到端的实践
目前来说,我们现在已经完成了在非路口场景内的端到端的数据驱动的开发和压力测试。主要数据来源一个是仿真的数据,一个是实际路测的数据。之所以从这样一个场景开始出发去做,其实主要就是它的数据量比较好收集,比较大。目前来说已经在测试端已经完成对传统方法的PK,整体的效果表现不输于它。
讲这个也是重点show这样一个效果。我们之前收集非路口场景的数据时,并没有针对性的收集换道超车类的场景,但是我们发现,红线就是端到端的输出,绿线是传统方法的输出。可以看出,红线很明显具备一定的换道超车的能力。这是让我们比较惊讶的地方:虽然我们并没有针对性收集这些数据,但是模型反而具备了这样一个能力。这个其实是我们所谓端到端的方法,通过数据驱动的办法去解决这些corner case的一个比较有价值的地方。
对一些路口交互场景,我们也针对性的做了一些,发现模型可以比规则、方法更灵活地处理这种横向避让。
以上就是我这次分享的一个情况。谢谢!
评论