百度智能云肖猛:2024年是汽车座舱大模型的元年,明年国内新车渗透率会达80%以上
3月15日至3月17日,中国电动汽车百人会论坛(2024)在北京钓鱼台国宾馆召开。在17日召开的主题为“大算力、大模型、大平台等在汽车行业的创新应用”的汽车新质生产力论坛上,百度智能云汽车行业解决方案总经理肖猛发表精彩演讲。以下内容为现场发言实录:
大家好,非常高兴能参加百人会这么好的交流平台,我今天给大家简单介绍一下大模型给座舱带来的一些智能化的体验。我们都知道,语音大概在2014年开始进入汽车,大概花了差不多八年左右的时间,渗透率有差不多80%。现在任何一个车上市基本都会有语音操作的能力,而且国内的车在这方面体验已经做的非常好。
去年大模型出来之后,很多主机厂都在考虑大模型是不是可以到车上去,而且走的很快,去年底已经有个别车型已经开始使用上,吉利的银河L6已经有了。理想的MindGPT也上来了,将来大模型在座舱交互上带来非常大的变化,车上不再是语音助手,而是AI助手。为什么会有这样的变化呢?我们会认为大模型会激活了车上大量的场景,什么是场景呢?很多主机厂几年前做了很多基于规则场景化的定制,场景是人和车和环境的组合,车上的人有人数,身份,坐的位置都会不一样,小孩在前排、后排,可能会哭闹;车也有更多,周围有很多的状态,这些状态是无数的组合。
以前我们是人要发起做什么事情,比如导航或者各种情况,有大模型之后这些状态的组合其实是我们可以用大模型推断,什么时候由车给人提供对应的服务。比如这里我们有一个典型的例子,如果是油车,人在里面,门窗禁闭,发动机开着这是非常危险的场景,这些场景对于传统情况来讲不会有太多的响应,有大模型之后是可以基于这些场景做响应的。
这里也列出来一些大量的场景,可以在座舱里做的。这个场景我分了类别,蓝色的这部分是人主动发起的交互的场景,黄色是AI做的场景,底下橙色是跨模态的场景。有一些比较基础典型的场景,我们已经做的非常成熟了,在极越的车上也有体现。更多的场景将来更多体现出来。这些场景还是很小的一部分,有了大模型,我们可以让更多的场景能够体现出来。
百度的语音和大模型的一体化方案,最先在极越车上落地,一方面语音技术非常的强,一方面大模型的功能体验做的非常的工程化,非常的稳定、成熟。刚才极越的云鹏总也说了极越车大模型的体验,我觉得他还讲的比较谦虚,我跟很多主机厂团队进行交流,他们对极越这个车座舱的交互是非常的认可的,可以说是目前市面上座舱交互和大模型交互天花板级别的存在。我们挑选比较典型的场景,这是一个跨域的对话场景。先从问答域开始,跨到交互的娱乐域。
(视频)
又回到是问答域。看起来好像交互其实挺简单的,从这个到那个,但到车上去之后,其实是在多个域之间进行不同的跨越。
还有用车顾问样板的场景。
(视频)
我们知道现在一本车的车书厚厚的一大叠,绝大部分人不会看它的。这些车书车辆顾问来讲可以视频的、图片的,一整套的可以让车主了解车的使用会非常的方便。目前很多车都用类似的机制来做这个车书。
这是很有意思的案例,个性化驾驶空间。
(视频)
上班这个场景下直接推荐出三个可以做的动作。开始放歌曲、启动导航,一连串直接做完了。其实这个做的还不够先进,原因这个场景还需要我说出来,说现在要去上班了,但更好的情况是这些场景AI自动发现出来,让人确认一下,做的再好,准确度更高,可能连确认都不用了。除了驾驶的动作别乱来之外,其他所有的动作其实都可以让AI去做更多的决策和操作的。
还有一个绘画的场景。
(视频)。
现在我们知道,目前很多的车辆屏幕是异形屏,非常长的屏幕,自己想拍照片,做一个壁纸其实是很难的,因为它的尺寸都非常奇奇怪怪的,这样讲的话可以很方便创作壁纸,这是大模型绘图的能力。
我跟很多厂商交流,他们觉得大模型用在座舱里其实不难,大模型能力也很强,正常对话都很OK,不管GPT还是文心一言对话都挺不错,放到车上就行了,他们做好多demo,我看好几家做的demo,我问他敢放到车上吗?他说不行,为什么不行?原因很简单,它其实没有那么简单。如果简单做一个demo的时候会发现,最直观的感受就是跟大模型说什么话,它都会有响应。我们在车内的时候可能会有很多的噪音,前排说话,后排说话,我可能在聊天,都会被收进去,都会被大模型响应,这个时候根本就没有办法真正的变到使用里面去。
座舱大模型关键技术点分层划了一下ABCDE五层关键的点,还有三层的路由。A主要是语音的技术,当我们在座舱使用这个大模型的时候对语音要求更高了,原因很简单,我们之前做语音的控制的时候,只需要识别几个关键的控制命令就行了,其他全部去掉,但是用大模型之后就不能全部去掉,要判断哪些东西要给指令控制,哪些要送到云端给大模型做处理,这个拒识的能力就要求非常的严。这个拒识我们目前做了四层的拒识,在车上讲可以根据声学的拒识和根据语义做拒识,也可以根据音区做拒识,到了云端再做一次拒识,拒识的能力是座舱大模型能够被应用的前提条件。
B是座舱上看到的这些功能的可视化的能力,第一层路由需要判断哪些语音指令是在车上做,还是在云端大模型来处理。刚才云鹏总讲到极越车上存在车端处理整个的延迟500毫秒,这样把正确的指令路由到正确的地方去,带来的体验是完全不一样的,
C端除了拒识之外,也做路由的分发,同时要做很强的络域的能力,这是座舱大模型非常关键的技术点。并不是说我们把所有的文字都给大模型,大模型前面我们要设计大量的技能去设置prompt和对应能力的体现,这个都需要在C端做络域,最后是我们看到大模型的能力。这一整串联东西全部连接起来,才是真正的工程化。我们做demo很容易,手机上跑起来,车机上跑起来,但是无法上车。极越是ABCED全部一体化的方案做的很完整,有很多车企讲语音用的其他的供应商,他可能没办法全部用,我们在整个方案可以说只用百度的D和E,也可以只用百度的C、D、E,也可以全部用。但是我们给客户是非常完整工程化的机制。我们敢说提需求,我们在三个月的时间内能够给工程化落地非常完善,ABCDE都做是更好。工程化实施的方案和技术上都有完整的一套机制。
最近我自己认为2024年是座舱大模型的元年,刚才说到语音的渗透花了八年的时间到80%,我觉得座舱大模型可能一半的时间都用不了,基本上2024年会大批的车辆上,国内的主机厂我觉得有一个算一个,每一个主机厂今年都会上座舱大模型的能力,无非强一点和弱一点的问题,到明年渗透率在国内新车的渗透率会达到80%以上。我们可以拭目以待。
最近也有很多车厂上线大模型的能力,包括极越和理想。最近蔚来NOMI GPT上线,这里有百度的功劳,大家可以体验一下,做的非常好,我们希望座舱大模型能够给大家带来更好的便利和更好的体验。谢谢大家!
评论