火山引擎杨立伟:大模型在汽车行业的应用还是偏早期阶段
3月15日至3月17日,中国电动汽车百人会论坛(2024)在北京钓鱼台国宾馆召开。在17日召开的主题为“大算力、大模型、大平台等在汽车行业的创新应用”的汽车新质生产力论坛上,火山引擎汽车行业总经理杨立伟发表精彩演讲。以下内容为现场发言实录:
谢谢大家,本来开场第一句是想说有很多老朋友在这边,发现老朋友都走的差不多了。我看前面大家介绍大模型,每个厂商在汽车行业的落地是比较类似的,分为座舱、营销、企业数字化。我认为大模型现在在整个汽车行业的应用还是偏早期阶段,刚才我们还在讨论,目前是量的提升,没有到质变,随着模型能力的迭代,以及模型从语言模型逐渐变成一个加上生成、加上多模态理解的能力,我相信在今年年底、明年可能会期待有质变的产生,从务实的角度来看,大模型目前阶段只是一个初步的阶段。
当然也非常开心,因为大模型给了我们传统汽车人跟互联网这个行业同一起跑线,我也是传统汽车人。以前汽车人非常痛苦,不管在座舱还是自动驾驶,我们都是在追随互联网,离他们是有一个很大的时间上的差距。而且因为汽车这个行业的软件生态还不像其他行业这么大,所以说我们投入度和大家思考的深度还不是特别深。大模型给了一个非常好的机会,我们现在跟移动互联网属于同一水平,大家基于大模型开始思考应用,这是我们第一次站在同一起跑线希望能实现弯道超车。
我跟我们抖音集团的董事长在汇报的时候,我们在讨论大模型在各个行业的应用。就发现汽车行业一个非常大的特点,跟手机不一样,手机目前交互形态还是基于触摸屏幕,通过屏幕来交互的产品形态,所以这也是为什么我们看Siri和手机里面的语音助手做的不好,我相信座舱内有非常便利的空间,目前没有大模型的时候,我们座舱的语音交互的时长和频率已经非常高,座舱是天生多模态的场景,机器想要跟人有互动更好,大模型更像一个人机交互的操作系统和人机交互的智能品。这样的话没有多模态的能力是不行的。前一段时间硅谷,包括国外有很多新的产品的概念,硬件的概念,AI Pin也好或者新的智能硬件,本质上移动终端需要借助更多视觉的资源和视觉生成力量,来一起进行人机的交互,座舱比较好的天生就有车内和车外的多模态,加上是天生封闭的语音交互空间,这是有比较大的迭代机会。
介绍一下火山引擎,火山引擎是字节跳动发源于中台团队,我们技术中台非常大,除了把云计算、推荐算法、数据能力技术能力放在中台,甚至把很多业务,贴近互联网业务特别深的用户增长团队、UG团队也放在技术平台,2019年to B希望把端到端的能力to B,现在大模型来了之后,我们放在了中台。
说到大模型,我们都在谈Scaling Law,这是字节跳动做的,比较看重速度,我们相对来讲不是最早做的,但是投入度最大的,虽然宣传的不多,不管说从算力的投入度,还是说从人才的对接密度,还是说从数据量,大模型持续迭代的关键要素,字节跳动投入比较多的。
第二点是生态,大模型如果是操作系统,像我们车载里面,如果大模型的能力越来越强,人通过大模型跟机器之间进行交互,现在最重要的是什么?现在大家都在对标GPT4,到接近GPT4水平理解能力是没有问题的,最关键的就是有没有足够的信源,云端有没有足够多的资源,我们想做理解有没有新闻的实时的信源,有没有最新的股票,大模型告诉我们的信源,这些资源有没有。
另外是执行,我们有了大模型的一些理解,我们需要大模型帮我们做一些动作,这些动作可能不是在一个C端APP完成的,可能是多个APP完成的。比如跟朋友聚会想订周围几公里的餐厅,比如要求什么口味的,它首先得了解我自己的行程规划,包括周围几公里,朋友之间的距离,首先他自己要推理。第二有非常强地图POI的信息,第三点还需要有抖音本地生活里面,每个餐厅的评分,或者大众点评的评分,第四了解停车便利性等等所有的资源,这个其实是非常需要我们借助移动互联网积累的信源在云端提供好。越到后面越是在汽车行业落地非常大的效果,或者巨大的作用,会把C端的信源,以前是APP上车,直接放到车内,这种不管对于互联网公司还是车企都是非常难的,开发费非常高,这么多车型,这么多屏幕,需要不断适配,这就需要费用和时间。车企卷价格的阶段成本还是比较高,APP之间不打通,APP都是基于手机端的体验,我们现在用智能手机都是用右拇指滑动屏幕,很多的交互都是偏屏幕右侧的,但是放在车内不一样,车内左侧交互比较多,天生违反操作模式的。我们现在是基于抖音集团内部所有的生态去整合,除了内部的生态,抖音、头条、西瓜视频、番茄、汽水音乐所有的信源以及执行的执行器以外,依靠我们在C端积累的巨大的流量,我们集成第三方巨量的信源,我们希望把这种信源以开放和快速的费时在云端跟大模型结合,直接上到车内,这样降低信源到车内的成本,以及增加通过大模型打通所有的信源,提高执行的效率。
刚才介绍到我们自己的模型,我们自己的模型是云雀语言模型,云雀本身是一个语言模型,除了语言模型我们还有其他的模型,比如像生成的模型、视频的模型。
除了我们自己的模型以外,我们也集成了一些第三方的模型,我们相信不同的业务场景肯定是需要不同的模型。比如像有些业务场景,比如车企的非常小的功能化的场景,要求成本低,私有化部署,这种我们觉得有很多第三方更小的模型更合适,我们基于我们模型平台集成很多第三方的模型。
大模型字节跳动有什么应用呢?我们基于云雀大语言模型,我们在集团内部有大几十款应用,或者说几十个业务在这个模型在结合。大家现在用的比较多的Chat的版本,豆包,很多同学也在用。今年豆包的增长也比较快速,我们今年年底给豆包定了非常高的预期,我们希望豆包能够把基于我们的云雀在C端,类似ChatGPT一样,能够提供更高的效率。
第二个是扣子平台,基于云雀和这么多信源做开发者平台,低代码的。扣子的平台长期的竞争力,所有的Agent,所有APP Store模式是缺乏商业化变现的,国外OPEN AI变现分开发者Token的费用,目前OPEN AI Token费用亏损的,分给开发者非常有限的,字节跳动的体系最大的优势我们是国内最大的互联网广告平台,我们有海量在线广告服务费,基于广告资源将来和开发者匹配他的应用,和他吸引广告主的细分人群,我们可以快速匹配广告资源,能够最快速实现商业化变现。现在我也在跟集团内部在谈,我们希望把这种模式引入到座舱内,真正座舱内实现商业化变现,或者流量变现。
这是我们大模型跟一些车企合作的功能。比如我们把手机端经过几百万用户DAU纯ChatGPT的模型放在座舱内,实现比较精准用户的聊天,包括头条的新闻,头条搜索、抖音视频搜索、抖音本地生活、百科、抖音的音乐中台和汽水音乐,我们完美结合,实现云雀云端调度的平台化。
第二点我们在生成,比如懂车、性能规划等等,这些也都有。
除了座舱以外,更多是围绕研、产、供、销、服,toC、toB场景跟很多车企合作,大家基于大模型能力自己做探索,我想火山引擎最大的优势就在于,我们除了把大模型能力提供给客户,帮助他去做基于自己的数据做应用以外,我们最大的价值在于我们也有海量的用户数据,合规、合法的情况下把公域数据和客户私域数据结合,一起帮助模型效率提升。我们有过这种case,大模型来以前我们基于一方数据和三方数据的结合已经做了尝试,包括提高转化,包括做投放效率的提升,跟很多车企有这种合作案例,围绕大模型更智能化的能力,将来会有更高的爆发的可能性。
希望后面有机会跟大家在线下深入交流。谢谢!
评论