面壁智能CEO李大海：端侧AI不等于端侧模型，大模型将越来越强、越来越小|财圈社

面壁智能CEO李大海：端侧AI不等于端侧模型，大模型将越来越强、越来越小

更新于 2025-03-30 21:46

1150242

3月28日-30日，以“夯实电动化推进智能化实现高质量发展”为主题的中国电动汽车百人会论坛（2025）在京隆重召开！本届论坛汇聚20+政府有关部门领导、30+院士专家、100+汽车及相关领域的企业代表，共议汽车产业变革新路径。在30日召开的AI汽车论坛上，面壁智能CEO李大海发表精彩演讲。以下内容为现场发言实录：

面壁智能CEO 李大海

各位朋友，大家下午好！

很高兴作为新面孔加入到汽车百人会的论坛来，整个中国汽车经过最早在汽车智能化、电气化之前很长一段时间的筚路蓝缕，又经过了汽车电动化到今天的智能化，经过几代人的努力已经在国际上产生了非常大的竞争力，这是我之前在圈外往圈子里走看到的让我觉得非常敬佩的地方。

面壁智能这家公司，大家可能没太听过。换一个角度大家可能就了解了，2024年下半年的时候大模型圈子里面流行一个说法，说大模型的格局是6+2，“6”是六小龙，“2”一个是DeepSeek，一个就是面壁智能。为什么DeepSeek和面壁智能放在“2”里面？因为我们两家公司都非常注重做高效大模型，我们都非常注重以小搏大，用更小的模型达到比它大很多的模型同等规模的能力。DeepSeek在今年2月时候在春节狠狠出了一把圈，就是因为它确实是做到复刻了OpenAI O1的能力，但是激活的成本只有O1的1/10左右。面壁智能在2024年开始在端侧践行这样一个理念。我们在2024年也出过一次圈，6月份时候发布的端侧多模态模型，只是在端侧以8B大小达到当时GPT-4V同等的多模态的水平，因为这个原因在海外被一个小团队套壳，他们想拿我们的模型去融资。这个事后来被了用户发现以后引起了轩然大波，最后以他们公开道歉结束。这个事表明中国的大模型力量在全球也有自己特色，有自己的一席之地，这也给了大家很大的信心。

我再简单介绍一下面壁的发展历程。

我们是一个从清华大学孵化出来的大模型团队，首席科学家刘知远是清华大学计算机系NLP实验室的长聘副教授。我们2022年开始深入深耕大模型，2023年做了非常多关于模型和Agent相关的工作，2024年看到非常重要的大模型发展规律，通过对这个规律的深度理解和推演，我们决定all in到端侧，刚才常衡生总、吴会肖总、胡成臣总分别提到了端侧的价值和场景，我们也看到了这个领域的价值和巨大的商业场景和空间，所以我们决定all in，2024年开始我们就发布了非常多的端侧小模型，把这一系列产品全部命名为“面壁小钢炮”。

大家都知道，大模型领域的发展不是按年计也不是按月计，甚至不是按周计的，因为每天都有非常多的论文，有非常多的想法，更新非常快。最近很多朋友会问我，我归纳一下大概是两类问题。首先，端侧AI等不等于端侧模型。其实这个问题前面嘉宾们提到了，我们在DeepSeek火了以后，有一些厂商快速去通过接一个API把demo做出来，这是非常快的，但是像长城汽车会肖总这样把自己的系统深度集成，这个是需要更多的时间的。但是它和云端的结合就是端侧的AI，但是不等于端侧模型。我们说端侧模型一定要把模型放到本地去推理，换句话说，推理的算力是在本地的，推理的算力在本地有哪些好处，就两个点，不再赘述。我这里反而想提一个概念，叫“隐私密度”。我们去看移动互联网时代造就的伟大的公司，我们说字节一定是这里面最伟大的，它做到了对用户深度的理解，但是理解密度是有限的，因为它主要是从这个用户喜欢看什么这个角度去理解了用户，没有能够去更深刻理解这个用户喜欢跟谁聊天、每天都聊什么、每天从哪里下订单买什么、吃什么外卖、常去的地址有家有公司还有什么地方，我说的“密度”，如果这些信息全都被一个应用或者AI掌握的话，这个隐私密度就极其高。而要达到这样的隐私密度我们觉得它一定只能在端侧，这样的隐私密度只能用户自己掌握，没有一个人愿意把自己这么高密度的隐私全都交给任何一家公司，这个隐私必须放在自己手上。所以未来越懂用户的应用越要在端上，这是我们说端侧非常重要的原生特性。

所以面壁我们在构建端侧模型的时候我们去做了几个方面的工作。

第一，构建端侧的基座模型，同时构建端侧的多模态模型，为什么要做多模态模型？要理解客户重要的是感知，刚才陈总讲到的交互，交互是建立在感知的基础之上，一定要感知得好，感知有几个层面：1、通过文字感知用户；2、通过各种模态感知用户。我们在今年一月份发布了全球第一个全模态的模型，端侧的全模态，这里全模态主要指类比人的全模态，人的模态有哪些？最主要是看、听、说，我们能同时看、听、表达，我们在一月份发布的MiniCPM-o模型就能做同时做到去接收视觉信息和声乐信息，并用语音和文字做反馈。大家可以想像我们把全模态模型部署在智能座舱里面，智能座舱能够同时观察用户各种各样的姿势、听到用户的指令，刚才大家畅想到的场景，也许我给它说完一个指令以后，座舱给了一个回复确认是不是要的这样一个指令，然后用户微微点头，这个对话就算完成了，这样的体验是不是对用户来说是更加贴心的体验，这个一定是全模态才能做到的。

端侧和云端有非常不同的难点，涉及芯片的适配和操作系统深度的整合。面壁智能在前面常总的demo里面看到面壁智能非常有幸和中科创达、和滴水OS有深度的合作，我们在滴水OS还有其他的操作系统里面做一个深度的整合，同时和高通、联发科还有其他国产芯片做深度的适配。为什么和端侧的芯片适配很重要？因为终端上芯片的生态和云端还不一样，云端我们知道英伟达一骑绝尘，只有他一家，现在国内华为在追赶。但是端侧有非常多的平台都是主流平台，汽车以高通为主，但是我们也看到像联发科还有国内很多其他芯片都在追赶。所以要同时把这些芯片适配好其实背后的成本很高，面壁智能我们自己在这个领域适配Infra这件事情上我们也有很深的积累，我们可以很好把芯片的算力压榨出来，同时要保证是足够的低功耗。

第二个问题，很多朋友问今年Manus出来之后，Agent非常火，为什么面壁不做Agent？

我们2023年7月份就发过一个Agent框架，7月份发出来之后到9月份全球积攒了两万个星标，当时那个是ChatDev，这个给行业里面的印象还是比较深刻的。我们的答案是我们认为大模型和Agent是两位一体的东西，我们说大模型就是Agent，其实就和西红柿叫番茄、马铃薯叫土豆没有本质区别，我们认为模型即Agent。为什么这样说呢？就是因为整个Agent体系要想把用户在这个Agent所需要的场景做好，模型作为引擎的推动力是非常重要的，如果模型的能力不够，整个Agent系统的效果是做不出来的。从这个角度看，任何一个Agent应用一定要具备优化模型、让模型在这个领域做得更好的能力。我们叫一杆子捅到底的能力，就是一下子从上面的Agent到最底层的模型都能针对我们的场景、针对我们的用例做好整体的优化，这才是一个真正落地的方式。

所以我们在端侧就把小钢炮送去上班了，它就是Agent。当然这里面不仅要有模型，确实需要基于模型之上一些Agent的能力，如LoRa能力，这里提LoRa要表明终端的场景之下基于LoRa的微调是充分利用模型能力和充分利用端侧算力的方式，因为端侧场景非常多，当我们有一个基模之后，在不同的场景里面由于模型大小的限制可能不太能在这些场景里面做的特别好，这个时候可以利用LoRa方式在这些场景里面专门训练一个针对这个场景增量微调的小的增量，这样的增量和端侧基座结合，可以在多个完全不同的场景都做到比较好的效果。我们认为这些能力都是Agent能力。未来随着模型的发展也都会把这些能力内化掉。

在基于模型即Agent的一套体系的思考，我们构建了基于面壁小钢炮端侧模型的小钢炮超级助手，底下是模型，再底下是我们的算力和操作系统，在之上有我们的基于Agent的各种框架，包括前面提到的LoRa、IG还有对于GE的管理等等等等这样一些体系。目前我们这样一个超级助手在汽车的领域正在大力往前推进，在落地过程之中，我们和合作伙伴推出的第一款车有望在今年三季度正式上市。

刚才成臣总这边在我的这个框架之上额外增加了交互这一层，我在这里我去拆解时候主要把它拆解为了感知、决策和执行，这个只是理解模型的不同。但是大家底下的本质是一样的。在我认为，用户的指令是感知的一个重要方面，因为在环境里面这个环境有很多很多的信息，包括环境信息、用户信息。用户信息其实也不只是语言，其实还有很多的用户的行为，包括一些用户被动发出的并不是想去表达指令的行为，这些行为可能都应该会引发模型的感知、引发模型的决策，进而引发模型的执行。比如在车上用户有点表现出发冷的感受，这个时候未必要用户真的发出指令“帮我把空调打开”或者“帮我把温度调高”，这时候模型感知到就应该主动询问“你是不是有点冷”或者“要不要帮你打开空调”。

基于这样的认知我们目前已经构建了非常多的舱内场景，这些场景里面有基于对话的，刚才和中科创达我们合作的典型的场景就是感知到舱内其实是后座有小朋友、前座可能成人已经离开了，我们应该去触发一个严厉的报警，告诉可能车主把小朋友遗漏在后座等。

这样一个智能座舱我们去拆解它的整个技术体系，很重要的就是底下在模型之上我们要去构建一个良好的记忆管理的体系。面壁进入到汽车领域想去服务所有汽车的合作伙伴，这背后我们的思考是什么？就是因为我们在做的是端侧模型，我们的端侧模型不会去传输用户的数据到任何的第三方，所以我们合作、我们服务的车厂这些数据属于用户的，也属于车厂的，面壁不会去碰大家的数据。但是面壁可以协助大家去构建出对用户深度的理解，这也是我前面讲到的隐私这个事情的价值。用户基于座舱和用户的交互产生的、对用户的理解都在记忆里边，通过这些记忆的沉积可以让座舱越来越懂用户，比用户自己还要懂用户，给用户更好的关怀、体验和陪伴。但是这些信息又完全在用户手里，也留在车厂的汽车产品里，既能够让用户有好的体验，同时又让用户离不开这些汽车产品，我们的车能够更加有黏性。我认为这是未来可能车厂除了把智驾做好之外，最重要的一个产品黏性。这是面壁希望能够给我们汽车合作伙伴带来的最大的贡献。

这里简单做一个VCR，让大家感性认知一下未来的座舱会是怎样。

（VCR）

端侧模型是全天候的，未来驾驶自己的爱车到野外没有网络的地方我们也能够让面壁小钢炮去全天候服务好大家，这是我们这个VCR想要表达出来最重要的一个信息。

在这样的个人助理中，有个很重要的功能叫做GUI Agent，它是Always On，可以代替用户感知屏幕上的信息，代替用户操作，这是当前为了满足这个阶段和当前的软件生态结合的一个比较重要的技术。

面壁小钢炮比较有特点的是，我们这些工作都是纯端侧运行的，通过对端侧的屏幕感知完成这个工作。这个有两个好处，APP升级之后不会受影响，因为不是API调用。第二因为是纯端侧的感知，所以用户屏幕上的这些敏感信息不会传到云端上去，一定是保证安全。

我们现在整个GUI Agent已经支持了9大类、26款APP，更多APP还作支持中，我们支持好这些APP是通过大模型对于屏幕的理解，而不是通过规则方式。我们也做了实验，我们通过学习中文APP情况，用英文去让它调用一些亚马逊或者谷歌的应用也能很好完成，说明它在模仿人类，用类人的方式代替人类操作，它的泛化性、通用性都是很强的。

后面我也想分享一下我们对于大模型的认知。我们有个很重要的认知，在去年我们正式给行业提，今天可以再提一次，我们在2024年6月份正式提出“大模型的知识密度”定义。“知识密度”有点像半导体的计算密度，就是固定的参数能够去蕴含的知识总量是多少。因为我们知道大模型的训练过程其实就是通过若干个参数，大家处理好的数据训练大模型的过程，把这些数据里面的知识全部压缩到这些固定参数里面的过程。当我们整个训练的效率越高的时候，就能把更多数据里面的知识都压缩到这么多的参数里面。在“知识密度”概念下，我们有一个定律叫大模型的知识密度平均每一百天提升一倍。对应到摩尔定律，半导体芯片的计算密度平均每18个月提升一倍。所以我们可以看到大模型的成长速度非常快，每一百天提升一倍代表着什么？一百天前当我们有个模型做到一个非常好的水平以后，一百天以后我只需要一半的参数就能达到这个模型同等水平的能力，这是大模型成长速度非常快的一个现象。其实在行业里面我们去看过去大概两年的时间，OpenAI整个API成本下降了200倍，背后其实就是在遵从大模型的知识密度定律。知识密度定律是和2020年OpenAI提出的Scaling Law并列的非常重要的两大规律，这两大规律共同影响了大模型未来的发展。而大模型最近我们知道Scaling Law大家说数据不太够了，Scalig Law开始停止了，这里我们看到预训练的Scaling Law因为优质数据的原因发展速度趋于平缓。但是我们又看到了一个后训练，这里我想和大家讲讲预训练和后训练本质是什么区别。

预训练的本质是对于静态知识的建模，后训练的本质是对于人的思维方式的建模，是动态的。预训练和后训练这两个建模其实能完整地把人怎么去理解世界和怎么思考这两个过程都能够做好。我们提出来的“知识密度”定律，对这两个Scaling Law都是有效的，我们相信每一百天做出同等好的思维水平的模型，一百天只需要一半的参数量就可以达到同样的思维能力，对预训练和后训练同样有效。

所以，我们相信大模型会越来越强、越来越小，只有这样它的成本才能越来越低，才能够在更多的场景里面去落地。汽车是这里面最重要的一个能够快速落地的场景，我们相信随着模型的能力越来越强，汽车终将变成一个超级智能体，它能够把前面大家提到的各种各样的外部的信息，包括汽车自己的全模态的传感器信息都能做深刻的感知，去进行用户的关怀、进行汽车自己安全检测等。最后这个超级智能体变成汽车这个客厅里面最懂你的管家，同时让你觉得最安全的一个管家。

这就是我今天的分享，谢谢大家！