中国工程院院士邬贺铨:建议建立全国统一自动驾驶训练模型
3月28日-30日,以“夯实电动化推进智能化实现高质量发展”为主题的中国电动汽车百人会论坛(2025)在京隆重召开!本届论坛汇聚20+政府有关部门领导、30+院士专家、100+汽车及相关领域的企业代表,共议汽车产业变革新路径。在首日召开的车路云一体化发展论坛上,中国工程院院士邬贺铨发表精彩演讲。以下内容为现场发言实录:
邬贺铨:尊敬的各位领导、各位来宾,大家早上好!很高兴来参加今天的论坛,我的发言题目是《网边算融合与车路云一体化》。
我们说智能交通主要还是以单车智能作为基本单元,同时加上车联网,而车联网实际上按我的理解是两部分,一部分是基于5G还有5G—A的网络,另一部分是V2X支持车联网的部分。我们可以看到,车联网本身组成首先有一个全国的智能交通算力中心,给出很多各种路况的数据。另外,每个城市会有一个车联网的城市云,不仅仅是中心云,也可能包括区域云,还有边缘云。路侧有路侧的单元,到了RSU,有通信功能、感知功能、计算功能。再往下落到汽车是单车智能,有车端的平台,当然也有通信能力、感知能力和计算能力,这是底下部分。
上面有5G网络,会跟底下的V2X网络并行,汽车可以直接接入到路侧单元,直接到车联网的城市云,汽车和汽车之间可以直通,汽车本身也可以连到公众网的5G基站。实际上5G的运营商核心网也会跟车联网的城市云关联起来,特别在5G—A的时候,或者叫5.5G,进一步改进了,在低时延、高可靠、高带宽方面比5G更适应车联网的需要。
作为车联网车路云协同首先是数据,按照美国蓝德智库的数据,训练L5的模型训练170亿公里的数据,真实的路侧数据至少1亿公里,1亿公里怎么算?100辆车7×24小时跑也得跑3.7年,每辆车每秒钟有雷达、传感器产生1GB的数据,差不多如果这样一辆车跑下来,12GB的数据传布,把数据做压缩。车作为智能交通而言,至少要有1GB的数据,对于我们的图像数据差不多1亿的token时延,在L4情况下数据可以减少到20%~30%,L3数据减到10%~20%,就算L3也要有1亿EB的数据,就算能跑,成本太高了,而且即便这样跑下去,也很难得到城市极端的长尾场景,实际上目前来讲大部分交通获得1%的数据是真实道路的,90%是封闭道路,90%是仿真的,数据不足怎么办?通过人工智能的办法,我们右图白天跑完了,可以通过人工智能改变光照、视觉、材质,甚至人为噪声、障碍等等,可以变换场景产生出更多的数据,但是如果说基本上都是根据人工智能产生数据,它会崩溃的。人工智能的数据是近亲繁殖不断迭代,最后反而完全不行。至少AI的数据,原始的数据至少要保留10%~20%。国家网信办等几部委联合发文,要求数据里面凡是AI生成的必须予以标注识别。除此之外,数据采集的时候还要进行去重,城市里面的数据很大部分是重复的,要进行去重处理,一般来讲去重可以实现95%,这是非常有效的。交通数据标注也要一定的专业知识,往往标注的成本也很高,也需要开发基于人工智能技术代替人的标注。
智能驾驶要什么样的算力?一般算力正比于模型参数和训练数据,反比于训练时长还有GPU的利用率。有人说如果训练时长足够长,那算力不要那么多。但是如果算力训练时长拖长了,中间训练的时候GPU会出错,反而影响效率。往往训练时长也没办法靠拉长训练时长来降低对算力的要求。实际上不仅仅模型参数训练数据,还要乘上倍数,一般这个倍数是6或者8,在神经网络计算的时候有前项计算token、后项计算token,按照L5来算,E级token模型参数千亿量级,可以算到一年都有两万多个EFlops,世界上现有的能力都还不够。按这个来算,支持不了智能交通。
怎么降低算力需求?以DeepSeek为例,高质量的数据筛选去重,用稀疏架构,本身参数量6710亿参数量,在目前的模型里面还是位居前列的参数量规模。用稀疏的专家架构,激活了370亿,也就是5%左右,大大压缩了算力。另外,优化了训练和进行蒸馏策略,优化算法,还有混合精度不是每次32位的精度,一般情况下大量是8位的精度。就算这样,做了百倍甚至更高比例的压缩,但是自动驾驶的算力还是非常高。我的看法是,如果每个车企还有每个城市都要去做这种自动驾驶的训练的话,实际上很不合算,作为国家最好出面,联合相关的车企、城市的交通部门,全国开发一个适用于全国道路的训练模型。这样每个城市就可以在自己的云平台上,加入城市特色的数据,进行微调就够了。我的观点是,智能驾驶的算力绝不是一个城市、一个车企就能去完成的。
刚才说到怎么压缩?人工智能最主要的技术生成式人工智能技术,最突出的是注意力,比如给它提一句话,它首先要听懂人话。所谓听懂人话,比如“我要找一本科普书”,找出这些词里面的关联,每个词都有多种解释,在这个句子里面应该是什么解释,那就取决于这个字这个词在句子里面跟前后字和词的关联。这就要找出它的注意力,这里面把关联分成QKV,找关联在计算上面做矩阵算法,当然这个算法要进行数学归一化处理,方便计算。所谓归一化的处理指数级也是很大的计算量。这是经常的,但是怎么简化?DeepSeek用的办法是不是把每个字和所有字都关联起来,这是没有必要的,在这个句子里面“我”是主语,“我”跟所有词关联,其它词不见得,仅仅“我”不够,相连的词关系最多,所以把相连的关系加上去。还有主语、谓语关系密切,加上去,最后得到这样的模型,这个模型跟上面的全连接模型相比,显然计算能力减少了很多。当然DeepSeek不仅如此,还用了多头注意力多维度核算,多维度并行的时候,为了提高效率,先压缩再存储。
除此之外,深度神经网络层有很多节点,对某个业务来讲开始是不知道应该走哪个点的,经过迭代试错,最后得出来经过每个点可能的权重(概率),这就是参数。显然参数越多模型越精细,参数越多计算量越大。一种办法是混合专家系统,举例一个大医院有很多医生,如果去看病,所有医生都给你看一遍效果是最好的,但是这个代价受不了。实际我们到医院先分科,你是外科还是内科,内科是消化内科、心血管,还是泌尿内科。所谓专家架构就是把大型神经网络分成若干个小神经网络,这样的话看病的效果是一样的,但是整个成本大大下降,像DeepSeek这样做,把正常的计算能力压缩到只有5%。
还有知识蒸馏,一般来讲大模型要进行学习,相当于看无数的书,现在如果有老师已经看过了,提取了它的精华,这时候学生就不需要那么复杂训练了。DeepSeek实际上用了这些技术,大大简化了计算能力,将来在自动驾驶里面实际也需要更关注算力的压缩。
有了模型还不能落地,大模型相当于给了我们一本百科全书,实际上大模型的质量取决于我们的问题,你如果问得不好,再好的大模型也不能给你很好的解答。仅仅有大模型不够,降低大模型的使用门槛,要把大模型上云,这样通过上云就能使用大模型,就能加入自身的数据进行微调。
还有一种,希望把大模型落地,很多时候并不一定非要上云才能用大模型,还有端侧大模型。再进一步,并不是任何任务都需要调度大模型这么多的能力,我们针对某个特定场景只需要有一个特定的软件小程序智能体,相当于手机上的APP一样,针对性提供。所有这些能力落到物理实体上成为具身智能,这些能力的综合无数的群智就可以得到通用人工智能。
智能体是一个非常有用的东西,我们在智能驾驶里面可以把各种智能驾驶的场景分解为多个智能体。每个智能体就是AI Agent具有记忆能力,根据所有的驾驶过程中给出的记忆,有些用处不大,只能短时记忆,当时有用,过后就没用了,有一些积累的经验成为长期记忆,有了记忆就可以分解任务,具有规划能力,还有使用工具的能力。通过智能体,我们可以很好地促进大模型有针对性场景的应用。
刚才说到每个城市要建立一个车联网的城市云平台,这个平台需要什么样的算力?依据智能驾驶的程度不同,L3、L4还是L5,处理的数据量最少也是TB级,到L5要PB级,数据的类型随着L3到L5数据类型越来越多,虽然国家的智能计算中心训练好模型了,但是并不等于城市云不要模型,城市云也需要模型,它作为推理,模型参数在L3的时候是151亿参数,L4是3000亿,L5 8000亿,现在DeepSeek用的模型参数是6710亿,意味着DeepSeek的模型参数也就是说目前仅仅能支持车联网的城市云计算,在推理方面。究竟要多少算力?取决于城市云能支持多少辆,平均一辆车在L3大概50—100Tops,50万亿次/秒的运算,L4提高10倍,L5差不多还是这个级别。这种算力的规模和技术方案,城市的云平台主要做城区的交通优化、车辆的软件更新、高精地图的更新,还有深度学习模型的推理,包括故障的诊断等等,非实时的任务,实时任务等会儿要说到,在路侧车端解决。一般的算力规模根据城市有多少辆同时上路的激活自动驾驶的车,当然也分解成中心云和边缘云,中心云负责城区的流量优化,边缘云负责交通信号灯的优化,还有局部的路径规划。
路侧单元的处理能力有多少?路侧从数据来讲有两类,一类是多模态实时处理数据,大概是10—50G/秒,如果计算一天,对L3来讲就是5TB,对L4、L5就是20TB,这是多模态实时处理,很多车获得实时的图像数据等等。另外,作为数据清洗融合,车内有很多传感器要进行算法融合,有时候不需要融合,要算到路侧单元做这些工作。模型能力主要是两类,一类是实时目标检测和事件的预测,预测准确率优于99%,100毫秒就能反应。还有动态决策支持,对交通信号的优化和车道路径规划。
算力可以算到单个RSU10—50Tops,这是一般情况下,L4甚至L5 100—200,还有一些通信的能力,至少要5G或者5.5G支持。RSU有通信、感知、计算,配备激光雷达、摄像头、毫米波雷达等等,这些是主要消耗RSU算力的应用场景。另外,RSU负责所在小区的所有车辆的感知和交通信号的优化,反应时间10—50毫秒。除了路侧平台,车端要有相应的算力,L2、L3、L4、L5车载算力最低情况下L2也要4—10Tops,L5要1000Tops,每秒一千万亿次的计算,相当于对汽车来讲是很高的。目前还没有哪个车能支持这么大的算力,前面可以看到不同的车端希望支撑的应用能力不一样,作为一个汽车还希望在车内就能预见到下一步的动作会产生什么样的效果,这实际上不仅仅给我们一个指示从哪儿走,等于提前告诉我们怎么开车。
车除了刚才讲的算力以外,还需要通信能力。支持车到车、车到路的通信,这是PC5通信10毫秒接口,车到网络的通信,可以看到对于车载算力来讲,还要支持定位,定位的精度目前来看有相应的算力,到L4的时候,我们水平精度可以在0.2米,授时精度到20纳秒,航向精度是1度。
单车智能是基础,但是只有单车智能还是有局限的,复杂的路口、恶劣天气、逆光和天气不好、交通标志不清,单车智能很难发挥。还有单车的雷达距离有限,毫米波雷达只有250米,激光雷达只有200米,摄像头只有200米,超声波雷达更短,只有一两百米以内距离受限,另外有视觉盲区,还有每个车配激光雷达比较贵,车载算力要求比较高,只有单车智能很难有大局观,很难得到其它汽车行人等等的数据。虽然导航可以事先下高清地图,但是下载量太大,临时下载也是不够及时的。还有用户行为和车辆的实时数据如果不上网,也很难提供个性化的服务。之所以用车路云协同可以做到全天候,覆盖半径可以从200米扩展到500米,可以有视线的感知和非视线的感知,可以简化对车载传感器以及雷达的要求,可以有全局性的感知,另外可以把周边的上云汽车和道路状况全局反馈到我们汽车里面,特别是车路云协同有利于城市交管部门对全局的掌握。
怎么组织网络?5G高可靠、低时延的网络已经部署,电信运营商需要为车联网改造和升级5G网络。过去三个运营商之间的互联基本上有些边缘省市可能要到跨省才互联,对于一个发达的地区也可能要到省中心互联,对车联网来讲这是不行的,时延太大。为了车联网,要建设运营商之间本地网的直连点,其次传统的5G网络并没有专门为车联网的确定性、低时延提供足够的保障,我们需要在城市的重要路口升级5G网络,让它升级到5G—A,确定性的时延保证,这些工作是运营商自身要完成的。除此之外还有路侧网络,V2X的运营商,建设一个V2X的网络,这个不是运营商自身能完成的,包括边缘计算,包括车联网的城市云,包括RSU,这是原来5G网络不具备的,必须要建设。在建设V2X网络的时候,局域网、城域网、广域网可以利用运营商已有的能力。
怎么建V2X网络?每个城市建,现在国家有20个城市试点,我认为每个城市建并不是好事,汽车是跨城市的,而且每个城市建的标准不一、碎片化,没有规模化,成本太高。需要建立一个全国性的统一的V2X运营商,负责建设每个哪个城市上车联网,它来负责投资建设。当然这个运营商可以由电信运营商、汽车企业、金融机构、交通企业、市政公司等等来组建。当然,它可以在全国统一下面,有的城市后面有分中心来负责建设,统一标准投资建设,规模部署、集中运营。
经过测算,如果分两期,大概总共投资4000亿,这里面不包括运营商对于现有5G网络的改造。投了4000亿可以达到什么效果?2G以上的公路大概全国有56万公里,全覆盖,主要城市的路口改造全部完成,能够支持L3的能力,可以实现城市通行效率提升30%,降低交通事故80%。
我的发言就到这里,谢谢大家!
评论