李想：L3无监督的自动驾驶在三年内一定能够实|财圈社

李想：L3无监督的自动驾驶在三年内一定能够实

更新于 2024-06-08 12:13

4339565

6月6日-8日，以“在变革的时代塑造行业的未来”为主题的2024中国汽车重庆论坛在重庆悦来国际会议中心召开。在6月8日举办的主题为“智电新汽车，美好新未来”闭幕全体会议上，理想汽车董事长兼CEO李想表示，“可以确定的坚信一件事情，在现有的计算平台上，带有监督L3级别的辅助驾驶，L3级别的自动驾驶可以百分之百的实现，随着这套技术的演进、算力增强，L3无监督的自动驾驶在三年内一定能够实现。”

以下内容为现场发言实录：

感谢王侠会长和重庆市，给我这样一个向大家学习和交流的机会。我今天分享我们在过去半年多的时间做的一个重要技术的突破，是关于自动驾驶的技术的突破。我这里强调一下，我讲的是4个字“自动驾驶”，不是“智能驾驶”，也不是“辅助驾驶”，这是最关键的。自己内部从去年9月份开始来思考一个问题，并专门建立了一个用于自动驾驶研究的一个团队，一个最简单的问题，人类开车为什么不涉及学习？如果不解决这个问题，所有自动驾驶团队每天干的活都是靠人工去调试，而且放的人越多问题越多，和真正的自动驾驶就越遥远。最核心的一个原因，当人工智能技术不断发展的时候，其实人类开车的方式不是过去这么多年用的自动驾驶研发的一个方式，这是一个根本的不同，因为人开车没那么辛苦，没那么累，不需要养几千人的团队去做。而且团队越多，它就越多。从理论和技术的两个角度研究，人类到底怎么开车，新的技术如何解决人类开车，解决自动驾驶开车的问题。从理论的角度，先是从一本书得到了启示，叫做思考快与慢慢讲述了我们日常的时候，大脑在工作的时候，分为系统1和系统2。系统1来处理一些直觉、快速响应的事情，其实就像我们在开车，很多时候我们在开车，脑子在想别的事情，但我们仍然在处理路上的各种事情，用系统一直在工作，并不是大脑不在工作，是大脑以一种独有的低能耗的方式工作。当去到一个复杂的，比如十字路口卡死或者开到一个地方遇到一个水坑，这时候调用大脑系统2工作，处理复杂逻辑推演的能力，但是大对大脑的消耗比较大，所以大家不会一直用系统2的方式来开车。但是解决各种复杂路况，解决泛化的问题、未知的问题，大脑会启用系统2工作。正常我们开车95%的时间使用系统1，5%的时间使用系统2，所以人脑每天不需要每天的功耗，人不需要学习这些就学会开车。

如果这样的人类工作方式，自动驾驶应该怎么工作，什么是自动驾驶的系统1，什么是自动驾驶的系统2？我们自己随着对各种技术的研究，自动驾驶系统1，今天很多自动驾驶团队都在做的端到端这样一个技术。端到端，就意味着我们把完整的训练频段放进来，最后结果是输入直接产出输出。不像一个感知的模块、规划的模块、执行的模块，这样效率更高。但是它的挑战也来了，各种人类规则在里面也步发挥作用了。挑战有三个方面：一是要有真正做端到端包括这方面数据训练的人才，二是需要真正高质量的数据，三是需要足够多的算力。因为端到端对于算力的需求，和以往变得不一样了。我们在端到端，过去做整个研究的测试，我们大概放入了100万klips（音），用于端到端的训练，大概一个月十轮左右的训练，卡料足够多。但是面对中国的复杂路况，只有端到端不够，我们要思考什么是系统2。系统2的启发在于什么呢？在于解决各种各样问题和各种泛化的问题，人类并不是通过学习它的。最明显的一个案例和启发是什么呢？我的爱人刚学会开车，很长一段时间连续好多年不停的刮蹭，分析下一次怎么不刮蹭，还是没有用，他还是刮蹭。分析是不是买的车太大，换一辆小的车，她仍然刮蹭，怎么说都会刮蹭。这时我们会发现学习它没有用，能不能通过提升能力的方式？当时我做了挺重要的一个判断，给我爱人报宝马驾驶培训的初级班。宝马驾驶培训初级班一整天，通过各种各样的方式只教了两个：一是无论在赛道上过弯还是绕桩还是处于环形路面的时候，你在打转向之前眼睛看向哪里？不是看你通过的路口，而是看你接下来要去的地方。用各种各样的方式，教我们开车要看路。另外宝马驾驶培训班教了另外一个能力，各种复杂场景里如何把刹车踩到底，包括湿滑的路矿、转弯的路矿，一半钢板一半道路的路面。宝马培训班交了两个事情：一是教你看路的能力，二是教你刹车的能力，只经过这么一天的训练，我爱人就彻底和刮蹭告别了。所以在接下来的十几年里，没有出现过任何的刮蹭。所以这是人类学习的一个方式。

我们在考虑如何把这样能力给到车上，就是VRM。视觉语言模型，为什么不是大语言模型？因为没有把一个大语言模型在云端使用。如何把一个视觉大语言模型进行足够压缩，最后放到车上去。他能够在面对一个没有红绿灯的左转路口提前作出预判，来知道我这个路口如何进行特殊的处理、进行复杂的处理，还有另外一个重要的功能，就是告别高清地图，也高徒所有清图在内的方式。为什么？因为视觉的语言模型还有一个最重要的功能，能够像人类一样去读懂导航地图。包含导航地图的横向、纵向、速度、时间，包括红绿灯，哪怕车辆的遮挡红绿灯也不再成为问题。我们发现有效通过视觉语言模型解决系统2的问题，一方面为端到端进行一个兜底，另一方面解决各种各样泛化的问题。所以发现非常有意思，车的ADMAX（音）有两颗芯片，一颗跑端到段，另一颗可以运行压缩到大概20亿规模VRM（音）的模型。整个验证结果非常兴奋，认为最早在今年年底，最晚在明年上半年，真正有监督的L3自动驾驶就能驾驶，而不是做实验了。

解决这两个问题还有第三个问题，端到端是黑盒子，VRM也是黑盒子，AI最大的区别是能力，过去的编程体系最重要是功能，功能要通过实验和测试来验证，而能力怎么拿测试和实验验证，是不可能。这时候一个新的挑战，用什么样的技术方式验证能力，这时候又找到一个新的方式，主要的原理来自于Sroa，我们用一些方式来构建一个重要的、一个小型的视觉模型，拿这个视觉模型让我们的车在里面考试。所以这么做，其实我们模拟人的一套真正工作原理开始呈现了，端到端承载人的系统1，VRM来承载人的系统2。系统1来解决所有正常自动驾驶这些反应、驾驶的能力，系统2来解决兜底和泛化的能力，并应用生成式的小的视觉模型来进行考试。这是我们在过去一段时间里做的最重要的一个技术性突破，而且我们的研究团队已经完全通过了正常的研究验证。

接下来会怎么样呢？我们会在3季度推无图NOA（音），会推端到端+VRM一套监督型的自动驾驶体系。最早会在今年的年底，最晚明年年底，大概推出超过1000万klips（音）训练，端到端+VRM的训练体系。端到端+VRM+生成式的验证系统，也会使未来整个物理世界、机器人最重要的架构体系。接下来一段时间，包含最近本月还有下月几个关键AI方面的技术论坛，我们技术研究的同事也会向整个行业来分享我们对这方面的研究、治理原理和实际结果，把我们进行的一些探索，能够和同行进行有效的分享。另一方面刚才讲会在7月份，最早年底、最晚明年年初，把这样的技术带给用户。通过这样的技术，可以确定的坚信一件事情，在现有的计算平台上，带有监督L3级别的辅助驾驶，L3级别的自动驾驶可以百分之百的实现，随着这套技术的演进、算力增强，L3无监督的自动驾驶在三年内一定能够实现。谢谢大家！