刘轩:智能驾驶,迈向AI 3.0
2024年7月11-13日,2024中国汽车论坛在上海嘉定举办。本届论坛以“引领新变革,共赢新未来”为主题,由“闭门峰会、大会论坛、10多场主题论坛、9场重磅发布、主题参观活动”等多场会议和若干配套活动构成,各场会议围绕汽车行业热点重点话题,探索方向,引领未来。其中,在7月12日下午举办的“主题论坛四:数据链动汽车,智能驶向未来”上,深圳元戎启行科技有限公司副总裁刘轩发表精彩演讲。以下内容为现场演讲实录:
各位领导各位行业内专家,大家下午好!我是来自元戎启行的刘轩。
今天我想跟大家分享一下利用数据驱动的智能驾驶迈向未来领域具体落地的实践,像滕秘书长介绍的,我们一直在做智能驾驶领域,我今天要分享的关于这方面的心得和理解,首先跟大家一起回顾一下人工智能发展的时代。
上半场有嘉宾也分享过他认为的关于数据驱动时代的几个划分,这里我们列了一下我们的理解。我们认为现在处于人工智能2.0时代,1.0、2.0、3.0到底是什么样的概念?1.0时代我们认为在过去更偏模块化深度学习人工智能的模式,主要还是以规则驱动为主的。在规则驱动的时候,需要的数据量不会那么大,当然也会需要一定的数据量,但并不是一个能够把数据进行高效利用,能够完全挖掘数据价值的时代。我们认为过去是所谓人工智能1.0的时代。
人工智能2.0时代有一个标志性的事件就是Transformer大规模的应用,像前几年ChatGPT为首的大语言模型的出现,包括后面生成式人工智能,以及这两年更火一些的端到端智能驾驶,其实都是基于Transformer人工智能算法的应用。基于Transformer算法出现之后,人工智能的算法能够对物理世界运行的各种各样规律包括信息世界理解得更透彻,可以建立一个对于世界的理解并且以后能够重塑物理世界,这个现在我们认为是人工智能2.0时代。
人工智能3.0时代是今天论坛所讨论的所谓的未来,人工智能3.0我们认为是通用的人工智能。过去很多人只会讲通用语言的模型,讲大语言模型或者生成式模型以后会不会真的取代掉人来做一些其他的工作。我们认为在驾驶领域也会有自己通用驾驶出行或者通用物理世界的人工智能会在AI 3.0时代发生。人工智能和汽车结合在一起,就为通用物理世界的人工模型天然提供了一个非常好的数据采集训练的平台。
过去每一次工业革命都会带来生产力、生产关系的重塑,会影响到各行各业的变革。我们认为在AI 3.0时代通用人工智能包括通用的语言模型、通用物理世界出行模型等等,会带来包括科学、农业、工业、医疗等各方面革命性的改变,现在已经有很多行业的从业人员感受到了危机。我们认为端到端模型可以给通用物理世界的人工模型提供非常扎实的基础,为什么是端到端的模型?所谓的通用人工智能有一个最关键的点,要能够把握住一些临界状态,不知道大家有没有关注去年底的时候有些比较火的生成式的世界模型像Sora,里面会有一些描述,像一杯水摔在桌子上,看起来非常真实,但全是人工智能生成,但是有一些变化细节并没有完全处理,它只有水杯完全摔碎前和摔碎后的状态。
在End to End端到端驾驶模型来讲,最擅长的就是把握每个变化的瞬间。车辆在运动,运动前后的状态其实能够比语言模型甚至人工模型提供更多更丰富的数据语义,我们认为端到端的模型才是能够引领AI 3.0时代通用物理世界人工智能模型。
前面说了这么多,端到端的智驾模型比起传统的智驾模型到底优势在什么地方?传统的智驾模型有点像传话筒的方式,传感器世界的数据要通过感知、定位、预测、规划,最终传到控制,每一层都要经过一定的处理,有信息的损失,会带有一些偏见,会引入一些噪音在里面。现在端到端的模型优点在于世界的数据输入,输出就是最终的控制信号,中间所有的模块过去这种模块化的信息全部被用一个大的端到端模型进行计算,中间过程可以最大程度减少传话过程中信息损失的数据量。
端到端智能驾驶比过去传统的智能驾驶会有几方面的优势:
第一,在处理复杂场景的时候,比规则要更容易处理。因为中国实在太大了,每个地方的交通规则、大家的开车习惯都不一样,如果你基于规则比较强去实现的话,迁移一个地方规则就不一定适用,不同地方的规则甚至可能有冲突和矛盾的地方。应用端到端智能驾驶可以用更简单的模型,更像人去理解不同的交通规则该怎么样开车,更能处理这种复杂的路况。端到端还有一个优势,信息处理是一个无减损的。另一方面它会更人性化,更接近于人类司机开车的感觉,并不是冷冰冰的科技。
我们在今年4月份的北京车展上,在全国第一个发布了端到端能够上车落地的模型,我们叫做DeepRoute IO,这个IO就是输入输出,就代表了端到端模型,给一个输入,用端到端模型就拿到输出,就可以驱动车辆进行高级别的智能驾驶。
我们如何真正实现数据驱动的端到端智能驾驶?这个过程是一步一步来的,是逐渐做减法的过程。早期像2017年之前整个行业做智驾的,更多是传统机器人的方式,完全Rule-based,里面包含检测、目标追踪、后融合等等都是完全拆开的模型。在2017年之后,更多转向了多场景机器前融合,把原始层面的传感器数据融合在一起做检测。我们在2022年行业内第一个把感知检测还有地图定位完全融合成通用的感知网络,规控融合成通用的规划网络加上传统的控制方法,变成了两个主要的网络,中间过程是减少代码量,更多用神经网络代替掉传统的工程量。在2023年8月份,我们完成了端到端的模型,整个模型去进行道路测试。端到端模型能力的上限还是非常高的,但需要有海量数据保证下限的安全性。
这里我们列了两个例子,使用端到端具体在路上跑的场景。左边这个图路上有一个临停占道的出租车,端到端模型很早就判断了这个出租车有可能会开门,所以它就会向旁边稍微借道避让,会跟人类逻辑非常像。这并不是代码控制的,完全是由机器学习自动学出来的行为。右边的图更有意思,这是一个分岔口,右拐的路可能会被直行的车辆遮挡一下,我们的算法发现后面有个车辆要右转,它主动向前让了一下,让后面的车过去,更友好一些。这些过程都不是由代码控制,都是模型自动算出来的,所以端到端的算法“所到之处都能开,任何场景都好开”。
我们在行业内第一个提出了要去掉高精地图去做端到端,本质逻辑是这样,既然讲端到端,输入就是传感器的数据,输出就是控制信号。高精度地图本身是一个中间结果,是对于周边世界不管是用算法还是人类标注,实际上是标出来中间让算法理解的高精度矢量图,这个更多是一个中间状态。对于普通的人类驾驶员来说,人开车的时候脑子里不可能背下来这么一张图去开车的,人做事并不是这么做的,所以我们认为端到端自动驾驶,最终自动驾驶的模式应该也是不依赖于额外的中间结果,可以实时从传感器的输入就能做这样的感知结果,就能进行自动驾驶。
通过这样的数据驱动之后,端到端智能驾驶像右边这个图是保定有一个著名的六岔路口,这里面包含了非常多的电动车、三轮车、行人,并且是非常不规则的行车,很多人类驾驶员都会在这里晕掉。有了数据驱动,经过不停地训练之后,算法可以比较完美地处理不同方向交通参与者的交互,可以做到安全和高效。
上周搭载智能驾驶方案的车辆是在8D魔幻城市重庆进行了智驾直播,像左边是解放碑的地下环路,右边是著名的盘龙立交。解放碑地下环路主要的难点在于不同于传统隧道,隧道里面有拐弯、有红绿灯、有路口,它连接了7条道路,并且道路非常狭窄,灯光比较昏暗,交通标识比较模糊,GPS信号非常差。左边这个视频是非常有挑战的,它在快到出口的时候要进行基本上接近直角弯的寻找路口转弯,过程中没有用任何高精地图,这样的算法像人一样或者比很多司机还要更精准地找到这样一个出口,不会犯错。
右边盘龙立交大概5层高,有8个方向,包括20个匝道,人类驾驶员也会经常走错路。现在端到端的方案可以只依赖于导航地图,就能够完美找到每个这样的匝道口进行城区内的智能驾驶。
这里还有一些在城市内比较复杂的路口,经常会碰到占道的车、逆向的行人、不规则的手推车等等,这种复杂场景很难用传统基于规则的方式去做,我们能做的就是用数据驱动,用端到端模型,让它更接近于人类驾驶员的行为。大家可以看到确实非常复杂,中间可能还会有一些为了绕行临停车辆不得不压实线。如果不用端到端智能驾驶的话,无法做到这么丝滑的体验。
(视频)我们节选了一些日常行驶中基本每天都会碰到的一些比较复杂的场景。
行业内很多朋友经常问搭载这样一个端到端的车到底什么时候能够买到?我们这样方案的车会有多款在今年陆续向消费者推出,消费者就能直接购买到搭载我们方案的车辆。因为端到端的方案,它能够真正实现全地域、全场景、全时间包含高速、城区在内高级别的智能驾驶。
在车辆进行大规模量产之后,我们会获得大量优质脱敏的数据,我们跟车企共同产生数据之后,我们只是数据的使用者,绝大部分车企希望有数据的所有权,对我们来说只需要使用数据能够训练人工智能模型就OK了,目标是帮助车企对应的车辆开得更好。当我们收集到足够的数据之后,持续训练模型,相信我们能够让普通消费者感受到具身智能像人一样开车的感觉,并且开得越来越好。在模型足够成熟之后,相信在未来这样端到端的模型能够被迁移应用到其他的物理世界行业,共同打造物理世界的通用人工智能,也就是所谓的AI 3.0时代。
借中国汽车论坛优秀的平台,给一些不熟悉我们的朋友介绍一下我们公司的情况。公司2019年成立在深圳,现在5年多时间,大概是接近700人的研发团队,主要的股东是阿里巴巴。我们也是行业内第一个做了无图智驾,也是第一个落地端到端智驾的方案,搭载我们方案的车辆会有多款今年内就开始落地,并且我们的方案后续还会推向海外。我们也相信这样一个深圳制造的品牌能够最终走向世界,推动整个行业的智驾水平达到下一个台阶。
谢谢大家!
评论