商汤科技王晓刚：未来的智能汽车，大模型能够实现以视觉为主的自动驾驶|财圈社

商汤科技王晓刚：未来的智能汽车，大模型能够实现以视觉为主的自动驾驶

更新于 2024-03-19 16:56

5760708

3月15日至3月17日，中国电动汽车百人会论坛（2024）在北京钓鱼台国宾馆召开。在17日召开的主题为“大算力、大模型、大平台等在汽车行业的创新应用”的汽车新质生产力论坛上，商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚发表精彩演讲。以下内容为现场发言实录：

各位专家、各位嘉宾，上午好！非常高兴今天能有这样的机会跟大家分享通用人工智能，还有大模型给汽车的智能化带来的新的变革。

通用人工智能带来的革命范式，带来的影响主要体现在两个方面。第一，他能够极大提升生产力，比如说自动的代码生成，现在已经能够解决70%代码的生成。第二，大模型，多模态大模型的出现，极大的改变或者是颠覆了人机交互的方式。

对于智能汽车来说，这两个方面非常重要，本身汽车智能化研发体系是非常复杂的，比如说我们在自动驾驶里面，从高速拓展到城区时，代码量增加几十倍，每天要解决几千个case，如何提升生产的效率是非常重要的课题。包括自动驾驶、智能座舱、舱驾融合，本身就是人机交互非常好的，实现闭环的场景，相信大模型AGI在这样的场景里面极大地发挥它的价值。

大模型、通用人工智能背后最主要的驱动力就是Scaling Law，随着数据、模型，算力规模的提升，不断突破边界，OpenAI已经证实，能够通过非常精准的数学的公式，能够在七个不同数量级的尺度上准确地预测模型的性能，我们在开发大模型进行训练时，也是运用Scaling Law，通过之前的试验科学，得到公式的拟合，就能非常高度地准确下一版的模型它的性能能达到什么样的程度，而不是随机的过程。

过去发展的过程当中，从2012年AlexNet出现，深度学习神经网络大规模的应用，对于算力的需求是上千倍的提升。随着ChatGPT、GPT-4，甚至更大规模的大模型，我们有上亿倍算力需求的提升。

我们从2018年开始从事大模型方面的研发，当时缺少相关的基础设施，为什么我们从2018年开始在上海临港建立AIDC，很多人不太能够理解，作为商汤这样一个算法的公司，为什么有这样的投入，为什么建这样的基础设施？今天我们可以看到，这样的基础设施是人工智能下一步进行发展，进行突破非常重要的基础条件。特斯拉今年GPU的规模会达到十万块，比我们现有的各个主机厂算力储备高了两个数量级，甚至更多，这种情况下，给了我们跟主机厂更大的合作空间，合作模式。到现在我们有4万块GPU，8000P的算力，到今年，这方面基础设施的建设，算力还会再增加一倍，推动大模型的发展。

我们建立了大模型研发的软硬件的基础设施，包括高质量数据生产链条，高效的，千卡、万卡并行训练的系统，还有低成本部署的系统。在这个基础之上，各种大模型的研发，包括语言，文生图，文生视频，还有多模态，AI Agent，未来大模型发展的趋势，不同类型的大模型彼此是关联的。

今天我们看到百模，千模大战，未来必然会急剧收敛，我们做多模态大模型研发时是建立在强大语言模型的基础之上，我们做文生视频大模型，里面借鉴了很多文生图的knowhow，我们要用我们多模态的大模型对我们训练当中的视频进行高效的文字描述，做captioning，所有大模型的研发是彼此相关，互相助力的。

今年我们可以看到，多模态，文生视频，必定是大模型今年发展的一个焦点，我们从去年开始，从事文生视频的研究，今年我们可以看到，Sora能够生成比较长的，一分钟的视频我们自己的文生视频也能够达到1分钟，甚至更长的，更高质量的，2048P，24FPS的视频，这是我们生成的香水广告的视频，可以看到这个场景下，比较逼真的人像，各种生动的水下的场景，各种花瓣，他们组合其他形成视频的内容，实现不同场景下非常自然，而且有创造性的过渡。

另外，多模态的大模型极大地改变了人机交互的方式，比如说我们到一个地方去进行旅行，可以从我们的相册里面选择建筑物的照片，拍摄到路标的照片，询问这是什么地方，我们应该怎样到这个地方去，模型都会给出相应的，非常详细的指导。卢浮宫游玩之后，还可以通过大模型写旅行的日记，能够生成图片。对这个图片不太满意，希望能够得到夜间的图片，它也能够根据我们的图片自动生成。各种模型互相调用，能够实现完整的体验。

这些大模型会给智能汽车带来哪些方向的变化呢？绝影是商汤智能汽车的板块，“驾舱云”三位一体的模式，作为自动驾驶当前最重要的突破点就是数据驱动，端到端的自动驾驶，UniAD，今年我们自动驾驶最大的突破，从高速到城区的领航，在这里可以看到，场景日益复杂，要解决的case非常多，需要大量的工程师每天去解决层出不穷的各种case。端到端自动驾驶是数据驱动的，能够为我们高效地解决城区的领航，提供更加高效实践的路径。

智能座舱里面，围绕着大模型，实现座舱的大脑，之前在座舱里面，和各位AI的功能，提供各种单点AI的功能，基于一些规则，把这些功能组合起来，实现产品的体验。今天大模型的出现，能够自动调用车舱里的AI功能，各种软件，各种硬件，形成座舱产品完整的体验。

这些所有的基础，AI云服务，AI云，刚才大家都提到了，我们可以看到行业发展的趋势，对算力、智能化、高投入，还有强大的软硬件基础设施的要求是不断提升的，我们作为人工智能的公司，也能够提供平台型的服务，给到车厂和合作伙伴，包括支撑我们自身各种研发。

这里面涉及到一整套大模型研发的体系，包括数据训练、部署各种不同的大模型，等等一系列的技术链条去支撑驾驶座舱，数据闭环。

自动驾驶的角度来看，我们看到未来发展的趋势，端到端的自动驾驶，之前自动驾驶的系统只有感知的部分是用神经网络，AI进行实现的，其他的很多模块还是依靠手写的规则，当我们遇到的场景更加复杂，投入的成本是巨大的。未来的发展趋势，端到端，一个神经网络去实现所有自动驾驶的模块能够通过数据驱动去覆盖更加广阔、复杂的场景，而且能够实现以视觉为主的自动驾驶。

2022年底的时候，我们当时发布了UniAD，业界第一个端到端自动驾驶的方案，今天我们也能够实现通过UniAD驱动自动驾驶，在一些城乡，比较复杂的城市道路，开始能够把我们的车跑起来，能够实现这样的体验，我们在不久的将来，在车展的时候，相信会有更加完整的体验，能够呈现给大家。

另外，基于多模态的大模型进一步提升自动驾驶它的可解释性，可交互性，多模态的大模型它的输入是包括了各种不同类型的传感器，系统的信息。另外，我们还可以有用户指令的输入，自然语言指令的输入，这就为我们进行舱驾融合提供了这样的接口。它的输出，包括环境的解码器，行为的解码器，实现路径规划，动机解码器，能够对自动驾驶的各种行为决策提供可解释性，自动驾驶就不再是一个黑盒。

这一套基于AGI多模态大模型自动驾驶的方案在CRALA上，也是世界比较知名的自动驾驶模拟仿真评测平台上，取得了世界领先的performance。

文生视频，通过视频的生成，我们也可以生成大量可控的视频，用于端到端自动驾驶的训练，包括测试，我们可以去模拟各种因素车辆的控制，各种转向，他的行为，包括路口基于一帧图像，预测路口未来各个不同的角度里面动态的视频，包括模拟各种情况，环境，还有交通标志情况下，驾驶的行为。根据各种要素，能够比较准确生成各种情况下自动驾驶的视频，用这些去精准地解决自动驾驶里面各种corner case，实现数据驱动，提升他的效率，降低数据采集的成本。

座舱里面，多模态大模型可以全方位感知乘客、驾驶员的需求，包括语言大模型可以作为座舱的大脑，实现各种功能的调用，利用专属的记忆模块，知识融合，就可以实现千人千面，还有AIGC，实现各种拟人化的交互，这里面就构成了座舱大脑整体的体验。基于座舱大脑，开发了针对各种场景的体验，时间的关系，我们就不一一赘述，其实这里面都是有一些比较有意思的交互的方式。

举一个非常简单的例子，我们通过文生图，可以简单地勾勒一些画面，就可以给小孩子生成生动的图像视频。

另外，可以舱驾融合，未来，高通的8775，还有Thor都有千TOPS的算力，在这里面，通过舱驾实现同一个芯片里面，更好地降低成本，车内外各种传感器数据的打通，在产品里面实现舱驾融合更好的体验。相信未来大模型，无论是在驾驶，还是座舱，给我们带来非常多想象的空间，一起去探索，带来智能汽车革命性的变化。

谢谢大家！