百度智能云肖猛：2024年是汽车座舱大模型的元年，明年国内新车渗透率会达80%以上|财圈社

百度智能云肖猛：2024年是汽车座舱大模型的元年，明年国内新车渗透率会达80%以上

更新于 2024-03-19 16:53

5684383

3月15日至3月17日，中国电动汽车百人会论坛（2024）在北京钓鱼台国宾馆召开。在17日召开的主题为“大算力、大模型、大平台等在汽车行业的创新应用”的汽车新质生产力论坛上，百度智能云汽车行业解决方案总经理肖猛发表精彩演讲。以下内容为现场发言实录：

大家好，非常高兴能参加百人会这么好的交流平台，我今天给大家简单介绍一下大模型给座舱带来的一些智能化的体验。我们都知道，语音大概在2014年开始进入汽车，大概花了差不多八年左右的时间，渗透率有差不多80%。现在任何一个车上市基本都会有语音操作的能力，而且国内的车在这方面体验已经做的非常好。

去年大模型出来之后，很多主机厂都在考虑大模型是不是可以到车上去，而且走的很快，去年底已经有个别车型已经开始使用上，吉利的银河L6已经有了。理想的MindGPT也上来了，将来大模型在座舱交互上带来非常大的变化，车上不再是语音助手，而是AI助手。为什么会有这样的变化呢？我们会认为大模型会激活了车上大量的场景，什么是场景呢？很多主机厂几年前做了很多基于规则场景化的定制，场景是人和车和环境的组合，车上的人有人数，身份，坐的位置都会不一样，小孩在前排、后排，可能会哭闹；车也有更多，周围有很多的状态，这些状态是无数的组合。

以前我们是人要发起做什么事情，比如导航或者各种情况，有大模型之后这些状态的组合其实是我们可以用大模型推断，什么时候由车给人提供对应的服务。比如这里我们有一个典型的例子，如果是油车，人在里面，门窗禁闭，发动机开着这是非常危险的场景，这些场景对于传统情况来讲不会有太多的响应，有大模型之后是可以基于这些场景做响应的。

这里也列出来一些大量的场景，可以在座舱里做的。这个场景我分了类别，蓝色的这部分是人主动发起的交互的场景，黄色是AI做的场景，底下橙色是跨模态的场景。有一些比较基础典型的场景，我们已经做的非常成熟了，在极越的车上也有体现。更多的场景将来更多体现出来。这些场景还是很小的一部分，有了大模型，我们可以让更多的场景能够体现出来。

百度的语音和大模型的一体化方案，最先在极越车上落地，一方面语音技术非常的强，一方面大模型的功能体验做的非常的工程化，非常的稳定、成熟。刚才极越的云鹏总也说了极越车大模型的体验，我觉得他还讲的比较谦虚，我跟很多主机厂团队进行交流，他们对极越这个车座舱的交互是非常的认可的，可以说是目前市面上座舱交互和大模型交互天花板级别的存在。我们挑选比较典型的场景，这是一个跨域的对话场景。先从问答域开始，跨到交互的娱乐域。

（视频）

又回到是问答域。看起来好像交互其实挺简单的，从这个到那个，但到车上去之后，其实是在多个域之间进行不同的跨越。

还有用车顾问样板的场景。

（视频）

我们知道现在一本车的车书厚厚的一大叠，绝大部分人不会看它的。这些车书车辆顾问来讲可以视频的、图片的，一整套的可以让车主了解车的使用会非常的方便。目前很多车都用类似的机制来做这个车书。

这是很有意思的案例，个性化驾驶空间。

（视频）

上班这个场景下直接推荐出三个可以做的动作。开始放歌曲、启动导航，一连串直接做完了。其实这个做的还不够先进，原因这个场景还需要我说出来，说现在要去上班了，但更好的情况是这些场景AI自动发现出来，让人确认一下，做的再好，准确度更高，可能连确认都不用了。除了驾驶的动作别乱来之外，其他所有的动作其实都可以让AI去做更多的决策和操作的。

还有一个绘画的场景。

（视频）。

现在我们知道，目前很多的车辆屏幕是异形屏，非常长的屏幕，自己想拍照片，做一个壁纸其实是很难的，因为它的尺寸都非常奇奇怪怪的，这样讲的话可以很方便创作壁纸，这是大模型绘图的能力。

我跟很多厂商交流，他们觉得大模型用在座舱里其实不难，大模型能力也很强，正常对话都很OK，不管GPT还是文心一言对话都挺不错，放到车上就行了，他们做好多demo，我看好几家做的demo，我问他敢放到车上吗？他说不行，为什么不行？原因很简单，它其实没有那么简单。如果简单做一个demo的时候会发现，最直观的感受就是跟大模型说什么话，它都会有响应。我们在车内的时候可能会有很多的噪音，前排说话，后排说话，我可能在聊天，都会被收进去，都会被大模型响应，这个时候根本就没有办法真正的变到使用里面去。

座舱大模型关键技术点分层划了一下ABCDE五层关键的点，还有三层的路由。A主要是语音的技术，当我们在座舱使用这个大模型的时候对语音要求更高了，原因很简单，我们之前做语音的控制的时候，只需要识别几个关键的控制命令就行了，其他全部去掉，但是用大模型之后就不能全部去掉，要判断哪些东西要给指令控制，哪些要送到云端给大模型做处理，这个拒识的能力就要求非常的严。这个拒识我们目前做了四层的拒识，在车上讲可以根据声学的拒识和根据语义做拒识，也可以根据音区做拒识，到了云端再做一次拒识，拒识的能力是座舱大模型能够被应用的前提条件。

B是座舱上看到的这些功能的可视化的能力，第一层路由需要判断哪些语音指令是在车上做，还是在云端大模型来处理。刚才云鹏总讲到极越车上存在车端处理整个的延迟500毫秒，这样把正确的指令路由到正确的地方去，带来的体验是完全不一样的，

C端除了拒识之外，也做路由的分发，同时要做很强的络域的能力，这是座舱大模型非常关键的技术点。并不是说我们把所有的文字都给大模型，大模型前面我们要设计大量的技能去设置prompt和对应能力的体现，这个都需要在C端做络域，最后是我们看到大模型的能力。这一整串联东西全部连接起来，才是真正的工程化。我们做demo很容易，手机上跑起来，车机上跑起来，但是无法上车。极越是ABCED全部一体化的方案做的很完整，有很多车企讲语音用的其他的供应商，他可能没办法全部用，我们在整个方案可以说只用百度的D和E，也可以只用百度的C、D、E，也可以全部用。但是我们给客户是非常完整工程化的机制。我们敢说提需求，我们在三个月的时间内能够给工程化落地非常完善，ABCDE都做是更好。工程化实施的方案和技术上都有完整的一套机制。

最近我自己认为2024年是座舱大模型的元年，刚才说到语音的渗透花了八年的时间到80%，我觉得座舱大模型可能一半的时间都用不了，基本上2024年会大批的车辆上，国内的主机厂我觉得有一个算一个，每一个主机厂今年都会上座舱大模型的能力，无非强一点和弱一点的问题，到明年渗透率在国内新车的渗透率会达到80%以上。我们可以拭目以待。

最近也有很多车厂上线大模型的能力，包括极越和理想。最近蔚来NOMI GPT上线，这里有百度的功劳，大家可以体验一下，做的非常好，我们希望座舱大模型能够给大家带来更好的便利和更好的体验。谢谢大家！