2024年全国两会
确定

网站 > 2024中国电动汽车百人会论坛

毫末智行顾维灏:端到端自动驾驶技术是未来的重要方向,目前处在从分散到聚集阶

3月15日至3月17日,中国电动汽车百人会论坛(2024)在北京钓鱼台国宾馆召开。在17日召开的主题为“大算力、大模型、大平台等在汽车行业的创新应用”的汽车新质生产力论坛上,毫末智行联合创始人&CEO顾维灏发表精彩演讲。以下内容为现场发言实录:




大家好,我是毫末智行的顾维灏,今天我分享一下毫末智行在智能化领域的一些思考和我们的实践。

在过去的两年里面,其实我们观察了自动驾驶近20年的发展,总结了它的驱动因素和它的技术发展规律,基本上把智能驾驶分成了三个阶段,第一个阶段是最早的DARPA汽车拉力赛开始,那个时候谁先最早跑出一个沙漠,谁的技术能力就最强,那个时候的驱动因素是一个硬件驱动,所有的车上都挂满了大大小小的传感器,谁的传感器精度高、谁的传感器性能好、谁的传感器多,谁的自动驾驶性能就好。第二是2012年左右,算力越来越大,很多软件工程师开始转行到汽车领域,在这些更大算力的芯片上写自动驾驶、智能驾驶相关的软件,我们把这个软件称之为软件驱动的时代,所有软件都是由人来写的。

伴随着人工智能和大模型的发展,我们认为第三个阶段应该是一个数据驱动的时代,大部分代码都不是人来写的,所有的工程师都像是在准备数据,准备环境,训练模型,校验最后的结果,调整结构,调整参数,这样的模型是靠数据驱动过来的,所以我们认为是最近一段时间的发展,应该是自动驾驶3.0的时代。每一个时代里面感知、认知和模型是什么样的方式来实现,都是完全不一样的。

我们可以再看一下,在软件架构上它的变化。比如在2.0时代的时候,很多我们叫分散化的,或者是局部化的软件模块,不管是在感知上,我们实现了单个摄像头的感知,发现有好几个摄像头,那就做后融合,摄像头做完后融合之后再跟激光雷达做后融合,再跟超声波雷达做后融合。认知也一样,规划、预测、决策,然后到最后的控制。这些模块都是分散化的,局部化的,由工程师在家里写代码完成的一种状态。到了3.0的时代,我们会觉得说随着数据驱动,随着模型化的发展,那分散的会逐步向集中化来聚集,当然最后会达到一个完全的端到端,比如最近也有很多朋友大家在聊很多端到端的自动驾驶的话题,我觉得端到端一定是未来很重要的方向,但它不会这么快到来,我认为还是需要几年的发展。这几年的发展是怎么发展的?是把过去的离散的部分逐渐地聚集,逐渐模型化,把感知的模型聚集到一块,把认知的模型聚集到一块,控制的模型聚集到一块,然后再来实践在车端的模型怎么和云端模型又进行联动。所以我们对技术趋势的理解是一个从分散到聚集,一个逐步发展的过程。

也是伴随着刚才我所讲的这些技术思考的发展,我们也在去年的时候发布了毫末的自动驾驶领域的大模型,我们叫做DriveGPT,是垂直领域大模型,到今天大家越来越认识到,通用大模型是一类,那它能搞的这种公司和能力要求比较高,公司也会比较有限,但是在很多垂直化的领域里面会出现很多垂直化领域的一个大模型。我们做这个DriveGPT的时候,垂直化大模型的时候,要把握三点:

1.我在自己的大模型里面有没有我自己最看家的本领,DriveGPT里面最核心的能力是基于持续的多模态的视觉识别大模型,我们把它用Token化的表达方式进行训练,再进行三维化,这是我们做大模型很重要的技术基础。

2.怎么样善于使用自然语言领域、通用大模型领域已经存在的模型,所以在我们大模型里面加入了两个业界里面,在自然语言处理领域里面比较流行的模型,一个叫多模态大模型,放到这个视觉里面就会让本身视觉三维的渲染也好,还有标注、识别也好,能够提前自动化地理解这个照片里面,或者是说前融合后的数据里面究竟这个桌子和讲台是怎么样来分割的,所以加入了多模态大模型。在认知模型里面,我们又加入了大语言的模型,就像刚才邓老师所讲到的,大语言模型它不仅仅是自然的交互,它还有很多知识的理解。

我们在驾驶的过程中,驾驶的常识是怎么来获得的?以及说驾驶的解释是怎么获得的?其实我们都是在大语言模型里面,在认知领域来获得的,第二个阶段是垂直化大模型,善于使用自然语言里面已经相对比较成熟的模块,和我进行融合。3.垂直化大模型像DriveGPT里面所要解决的就是领域的知识,我们引入了CAN的信号和Goal的信号,就是导航的信息以及车辆驾驶里面转向、刹车、油门的这些信息,以及通过数据闭环所收集回来持续大量的数据,这些领域的数据知识,在这个大模型里面来协助进行训练,这样的模型有看家的本领,又有自然语言知识的借鉴,又有丰富的领域知识,这样的模型才能建成垂直领域比较好的模型。

在过去两三个月里面,我们也把其中的感知大模型这部分也去外面做了一个实践,在nuScenes,全球比较知名的视觉比赛,物体检测里也获得第一名,也是我们在感知大模型这块二儿,在学术界的一个尝试。

有了这样垂直领域大模型,它在自动驾驶里面能干什么呢?之前我们分享过做自动标注,以及整屏的图片看到都是我们在各个摄像头的视角和位置,通过大模型自动生成的图片,通过自动标注和数据生成,降低在不管是云端也好、车端也好模型训练的成本,这是大模型很重要的作用。第二个作用就是用云端的,因为它的算力比较多,两年前我们跟火山进行合作,建立了自动驾驶领域最大的智算中心,我们在云上训练比较大的聪明模型,车端训练模型比较小,车端的模型现在也会发生很大的变化,通过云端大模型来监督车端的小模型,通过蒸馏的方式让车端小模型能够得到能力上快速的进化,这是大模型里面的第二个。

第三个了解毫末智行公司的一些朋友可能了解我们还有低速机器人的模型叫小魔驼,我们尝试云端大模型的能力在低速机器人上直接进行应用,包括感知、认知,能让低速机器人的产品也能够有快速的发展。这是我们在大模型上的一些部分的思考和实践。最主要的我们服务的还是汽车厂商,这是我们最主要的汽车厂商的客户,我们把所有技术的能力转化成产品,来服务客户,这个是我们很基础的商业化道路,过去毫末成立的四年里,我们已经量产了20多款的车型,现在已经在交给用户,在全国各地,以及在欧洲和海外地区进行产品交付给用户,用户使用我们的产品,辅助驾驶历程超过1.3亿公里,我们也持续在通过这些数据完善我们技术的能力,产品的能力,模型化的能力,中国汽车还是竞争化很激烈的市场,是一个很卷的市场,交互的车型在第一代产品里完成开发和用户交付,在去年年初开始研发第二代产品,也是伴随中国汽车智能化的发展,全都是行泊一体的产品,行驶域和泊车域都是在一个控制器,一个模块来完成的,我们这三代产品,H170、H370、H750满足不同能力的要求和车位价格的要求。比如170我们主要是在服务的高速和快速路和基础泊车的场景,370开始进入城市,记忆泊车和记忆行车。570这样的产品我们来实现整个的城市级的导航辅助驾驶,刚才老师报告叫城市NOA,我们叫城市NOH,除了提供好的产品之外,中国有卷的比较厉害的是价格上,我们三款价格,每一款价格是绝对具有性价比的,我们也希望用我们刚才这些理论上的思考,在云端模型的实践到最后在车端产品的落地,和各位合作伙伴一起加速中国汽车新质生产力的发展。

谢谢大家!

所转载稿件如有侵权,请与我方联系删除;邮箱:daogecaijing@126.com

评论

暂无评论
已全部加载