科大讯飞刘俊峰:多模态给车带来全面的交互变革,是一个非常大的机会
3月15日至3月17日,中国电动汽车百人会论坛(2024)在北京钓鱼台国宾馆召开。在17日召开的主题为“大算力、大模型、大平台等在汽车行业的创新应用”的汽车新质生产力论坛上,科大讯飞副总裁、智能汽车事业部总经理刘俊峰发表精彩演讲。以下内容为现场发言实录:
尊敬的建华秘书长、尊敬的各位来宾、各位朋友,我是科大讯飞刘俊峰。
经过刚才这几位嘉宾的演讲、介绍,大家基本上都已经比较明确地感觉到,大模型的到来一定会给汽车行业下半场的发展带来更多的机会,带来更多的竞争力,以及更多的用户体验场景。所以今天也是跟大家分享一下,在科大讯飞这一年多时间里面,在大模型推出之后,怎么样和汽车行业形成一些结合的应用,也非常荣幸在电动汽车百人会十年之际有这样一个机会跟大家交流。
首先,基本可以看得到,随着大模型的推出,人工智能第四代的浪潮已经到了一个拐点将至的时间。上一代是随着CNN、DNN、Transfomer以及2016年AlphaGo围棋这个领域战胜人类,随后一系列人工智能和各个行业的融合上面来带入第三次浪潮,而大模型随着GPT和我们陆陆续续的现在在中国的百模大战,以及各个行业的应用上随之涌现到各个行业结合大模型之后的变化,现在明显感觉到了大模型所带来的第四次浪潮的趋势。
大模型融入有一个技术成熟的周期和一个采纳周期,在C端和B端、以及更专业的行业端都有一样的趋势。这样的一个采纳周期可能是3-6个月,很多C端的一些智能化非常高的,类似于像具身智能的机器人,以及大家看到的前两天的机器人的所有具身性的特征,都会慢慢融合在这样C端的产品里面。
而可能在一年左右的时间,很多通用型做B端的就会融入的相对来说较完整了。我们可能看到类似于像让大模型来做PPT的模板,做一个相对来说比较通用的文案,这些的话基本上已经到了拿上去之后比我们自己一个字一个字地敲可能还会感觉到更靠谱一点。也包括让它来去做一个基本的生成式的故事,或者是一个看上去还可以的图片。
随着在行业应用越来越严谨,这样的一个周期势必会拉长,类似于像教育、医疗,这块我们不能允许它有幻想症,也不能在该严谨的时候还在胡扯,也类似于像在汽车,我们在跟它去描述一个具体的开窗场景,支持使用的场景,类似像修车,这些其实都是不允许来去做胡说八道的那样一些场景发生的。所以在可能更长的一段时间,两年,甚至更长的时间,我们需要去用更多的专业知识和专业工具来约束它的行为,让它跟我们实际的一些使用场景、专业性和知识的要求相互匹配。这样的过程我们是能够看得到的。
星火是讯飞大模型的名称,我们从去年5月6日到去年的年底,我们四次发布会每一次都是如约而至,在今年1月30日我们又发布讯飞星火3.5的版本,在3.5的版本上我们已经基本上全面超越了ChatGPT。另外尤其在语言理解、语音合成,以及数字计算也超过了ChatGPT4的Turbo,还有我们从编程到场景形成,以及在逻辑推理,已经逐步接近了ChatGPT的Turbo,这个过程中我们配合华为,用晟滕的平台建立中国唯一一个全面自主研发的算力平台加上自主大模型的万卡集群的大模型平台“飞星一号”。当前我们看到的是现在可以能够真正在语音交互的对话效果,以及从整个文本表达能力,以及到各种行业应用的渗透的结合深度上,已经有了非常大改善的星火3.5的平台。
大家也可以从手机上下载讯飞星火APP,全面体验我们这样一个平台带来的那种体验的变化。
从汽车整个融合上大家都在积极地思考,刚才各位专家提到非常多可能和汽车结合相关的场景。一方面这样的底座肯定是每一个大模型真正服务的基础,不管是算力、数据和算法都是大的基底。另外从各种知识的融入到很多平台工具的开发和开放,保证很多用户、客户架构的基础。其他上面各种应用我们都要探索,从整个大模型上车,不管从交互层面、知识层面,还是各个应用场景层面,我们看到的也有可能只是冰山一角,不管是座舱还是智驾,也是从不确定性之中走向了确定,在这个路径之中我们更愿意用探索,和客户,和合作伙伴一起来去把一些场景真的做深做透。而这里,真正文无第一,武无第二,谁是一招鲜这样的局面还没有完全出现,都是不断试错,不断构建,和不断做体验的变革OTA,这个过程才能发现的。
我们这里拿座舱来说,在我看来,现在大模型给座舱最大的价值,应该是先从真正的人性化的自然灵活、自由的表达开始,首先我不认为让它来做聊天是一个小事。在人和车整个交互对答这十几年里面,人其实在车里面约束的都还是比较多的,我们要去学习,要去适应,要去熟悉它相关的一些技能,它的对话方式,尽管我们做语音交互在汽车行业已经有20年了,但是这块迟迟没有完整的改变,而大模型带来我们这样的机会和潜力。
首先真正让人在车内可以真正非常轻松的跟车来聊一聊,这样的过程我们是非常珍惜的。刚才潘总也讲到了,对话次数变多了,虽然很贵,但是我们还是愿意让他多聊一下,一首歌的信息,深度信息到延伸到另外一个场景,这样的过程我们都是期待的。从聊一个电视剧到聊一个电影,可以能够从它的兴趣真正挖掘出来它的商业闭环机会,这也是我们希望的。从一个旅程的开始,去来给它一些路书的推荐,加上周边的吃喝娱购游相关的场景推荐。这些相关都是被动聊天和主动聊天开始的,这个时候让他先聊起来,至于深层的东西到底有多好,有多完美,有多专业,我认为那是其后的,它也是随着我们从喂养大模型越来越充分,越来越垂直,工具约束越来越到位,不能让它扩散,越来越有效率,这样的过程就成型了。
另外,在多模态给车带来全面的交互的变革,我也认为是一个非常大的机会,首先它能够真正高效抑制噪音,其次从视觉交互、到手势交互,车外、车内更多的场景,真的能够让车具备具身性,而这个过程从它的五官感知到各种场景的融合,有可能构建出来更深的体验的一个系统,这样的过程,多模态和车和大模型的结合也是必然的。
我们提供汽车智能音效系统,这样的系统源于我们对车声音闭环的诉求,让车自己发声,又听得清,从而形成类似于像人的耳朵和嘴一样的闭环,车的声音是好听的,不管是说话,还是放首歌,还是放电影,另外给汽车内提供更多的以声音为基底的场景设计的可能性。但是从大模型融入之后,我认为可能有更多的一些表达机会了,比方说我们真的可以去来吸收车端的噪音,这样噪音模型和车型平台和车的结构可以做结构化匹配的。
另外我们可以让人在车内,对于他想要的声音和他不能接受的声音,能够用非常模糊人性化的表达一语到位了,比如我听到一个声音调整的不太好,我感觉低音有点轰头,解决轰头这样的情况如果参数没有对标是不那么简单的。不用跟用户炫技、做非常复杂的界面,可以让你来整,我认为这个过程就是让人简单。所有这些都是为了在未来从人和车的关系上,从交互的界面上能够带来更多新的、体验更好的、或者是一些让用户感觉到惊喜的这样的场景。这些场景随应用而出,类似谈音乐、谈一些兴趣点,这些都是慢慢在座舱里会随着大模型和某些场景,和某一些生态深度耦合之后,深度优化之后,能够给座舱带来的那种新的体验变化。
随着现在我们配合很多手机厂商、汽车厂商出海的项目越来越多,我们从多语种的交互也在加快投入,也在把大模型和更多的语种能结合大家在做出海全球化的过程深度优化。在今年年底,我们将会达到有将近40个语种可以能够伴随大家来覆盖主要的一些国外的销售地区。
也跟大家做一个简单的汇报,讯飞在汽车这块将近20年的发展,从单一语音交互走向多模态、多语种,又从声音的宽度,从听到说整个全链闭环,我们也配合很多车企从座舱的领域,结合一些生态,结合一些场景,以及个性化去投入非常多的项目。我们从去年1024发布了讯飞智能驾驶1.0版本,我们做到行业里面第一个用现场直播来去发产品的这样一个非常冒险的大胆行动,我们也是配合着车企,当然还有很多横向其他的行业,用大模型和我们在做IT和工程的能力,伴随很多车企从前端的销服到内部的整个研发迭代、办公管理的过程,我们做企业数字化的赋能,所有这些都是希望从AI+汽车大的趋势上,我们真正能够成为在迈向下半场智能化的伙伴。
谢谢大家!
评论