罗道军:国产车规芯片应用遇到的可靠性问题及系统解决方案
2024年7月11-13日,2024中国汽车论坛在上海嘉定举办。本届论坛以“引领新变革,共赢新未来”为主题,由“闭门峰会、大会论坛、10多场主题论坛、9场重磅发布、主题参观活动”等多场会议和若干配套活动构成,各场会议围绕汽车行业热点重点话题,探索方向,引领未来。其中,在7月13日上午举办的“主题论坛九:汽车芯片高质量发展,巩固智能网联新优势”上,工信部电子五所元器件与材料研究院高级副院长罗道军发表精彩演讲。以下内容为现场演讲实录:
谢谢秘书长的介绍!各位在座行业的朋友们,各位上午好!
刚刚一汽的王总介绍了车规芯片的应用需求等方面的很多信息,首先回答一下其中两个:车规芯片电磁兼容和可靠性问题目前已经有比较完整的测试和解决方案。因为这两年车规芯片的议题非常热闹,今天讲的课题既要围绕怎么做好芯片,同时怎么用好芯片主题给大家做一个交流。
先简单介绍一下我们五所的情况。秘书长已经介绍了,总部在广州,全国各地都有分支机构,北京也有,可靠性是我们所的专业方向,材料、设备、到系统,软件、硬件全部覆盖,包括信息安全方方面面的解决方案都有。特别是在车规芯片方面,五所是国家级汽车电子的测试中心,也是国家集成电路的测试中心,还有国际电工委员会IECQ的国家代表机构,在车规芯片方面还是有非常好的基础,针对各种类型产品的服务都有,芯片只是很多工作内容之一。
今天的主题包括几个方面,重点跟大家介绍一下车规芯片遇到什么样的可靠性问题,怎么样用好芯片这样一个主题,同时介绍一个故事,也就是一个案例。
一、背景
车规芯片。以前整车厂不关心芯片,关心发动、四个轱辘和壳子,现在对芯片的关心很强,做车的都关心芯片了,其实Tier1在里面起很大的作用,据我所知各个大汽车厂,特别是国内的都有的大团队都在关心。
讲到车必须要讲到可靠性,因为跟一般的消费产品不太一样,车外部大环境实际上是天南海北各种都有,不可能车分型号,这个型号卖东北,那个型号卖海南,不可能,要适应各种工况环境。
微环境,就是汽车电子或芯片所直接面对的环境。微环境在车的座舱和其他区域不一样,如果设计得好可以节约成本,如果同样按一个最高等级零级的车规芯片标准去应用在各个场合,成本就会很高,竞争力就会下降。特别这两年的主题,就是除了可靠还要讲一个热词“低成本”,现在竞争卷得不行,必须要可靠还要成本便宜才行。所以我们在对可靠性要求的应用场景,包括外部环境和内部环境有比较好的了解。
什么叫车规芯片?实际上车规芯片还是按AEC-Q标准的定义,包括我们讲的相关支撑标准,是一系列标准的定义,它按照可靠性的要求(使用温度范围)划分四个等级。刚才王总讲的等级是最高的零级,最严酷的等级,很多时候在车上面也会用到第三个等级,-40到+85度这样的工况条件,各等级的寿命要求实际上是类似的,还有失效率等级,使用范围、供货年限其实都有要求。还是刚才讲的说法,车规芯片研制周期长、成本高,应用推广的周期也长,还需要长时间保证供货,不能说过两年没有这个芯片了,车往往要长时间维持生产,必须要有可持续、安全的供应链。
车的这个趋势刚才的嘉宾也讲过了,这里不说了。确实是大好机会,对国产芯片来讲新能源汽车我国是最大的,用量增量最多的行业。车规芯片目前自给的占比不到10%,这里有数据,很多报告和调研的真实数据,也可能是去年或者是前年的,但是都是真实的数据,结构性短缺,国产高端芯片缺乏,低端过剩。我们鼓励做车规芯片往高端走,低端卷得不行了。只要国人都会做的事情很快会卷掉,所以你必须不断创新。
二、车规芯片
车很需要安全,一车人、一家人坐在车上,如果有不安全的情况出现是非常严峻的问题,面临的挑战我们要很清楚。要知道可靠性问题在哪里才能想办法预防、控制这些可靠性问题。以前用国外芯片应用有成熟的套路,只要照搬照抄,别人用什么你用什么就完了,现在不是这样。
总体总结一下,按照可靠性来讲两个方面:
第一,制造方赋予产品的固有的可靠性,怎么做到基本的固有可靠性(baseline)是有保证的。
第二,用户也要用得好才行,用的地方不对,电路结构不合适同样是有问题的,就是所谓的应用可靠性。
所以我们强调两个方面,芯片用得比较好的可靠性包括两个:一个是固有可靠性,一个应用可靠性。
总体而言,目前从工作数据积累来看质量一致性、工艺稳定性和工艺适应性方面,包括可靠性方面,和国外先进制程,先进的长期几十年积累的汽车芯片公司比起来还有比较大的差距,我们实事求是来说,搞技术的人必须实事求是,不能像宣传部门的人说我们如何如何厉害了,实际上技术人员知道差距其实还是很大的。
导入这些国产的东西必然有风险,有风险怎么办呢?先看看风险在哪里。这是近十年到2022年国产芯片测试数据,因为我们是国家的测试中心,所以每年有大量的芯片在我们那里测,包括GPU、CPU各种各样类型的芯片都有在我们那里测,实际上合格率并不是特别高。
意味着什么?即使打上“合格”的并不代表可靠,合格测试只是按照标准来做,可靠性跟各种应用,跟各种场景,跟长期的使用有密切的关系,不是测试合格就可靠,是两个不同的概念。但是反映一个数据和信息,不合格的越多可靠性就越差。
这里有一个典型问题,这是固有可靠性问题,芯片流片出来以后在整个制程里面很长,很多道工序,如果新兴制程上千道工序,但是成熟制成会少一些。可以看到微观方面的问题其实很多,但这些问题出厂的时候并不是马上能够检查得到,等于我们看到是一个个的component封装好的,实际上封装里面的东西很多有各种各样的潜在问题。
再看看很多没有经过车规认证的产品上了车,特别是前两年,疫情期间买不到,怎么办?凑合就上车了,有这种情况。2022年做的调查,全国41家主流芯片公司,去调查200款芯片里面,其中通过AEC-Q认证的只有164款。计算类的通过率最高,存储、控制,还有其他类别的,通过率比较低的,实际上是存储类的比较低,图标上可以看到这个数据,当然这两年可能有变化。
车规芯片研制历史周期短,经验和应用履历不足。我们知道人从小到大成长过来都是经过不断的摸爬滚打摔过来的,如果刚刚开始研制就能够生产出一个产品很成熟、用得好,实际上理论上也不现实,实质上也不是这样。可以看到图标上这个数据,其中有22家第一款推出产品的时间,可以看到是在2016年-2020年的5年间,仅有两家推出早于2010年的,大部分都在2016年-2020年。以前都没干过,刚开始干。当然也是好事情,我们至少发展了。另外一个不好的事情,就是我们实际上很年轻,履历不足。
可靠性是与时间有关系的质量要素,经得起时间检验的质量才叫可靠。如果这方面没有应用履历就有风险,不代表一定会有问题。
另外一个观点,国产芯片产业规模小,可以看到这个表格,典型国外大公司的规模,车规芯片销售的规模,历史长规模大。再看看统计国产车规芯片企业的数据,千万级的,一年营业额1000万以上的只有22家,当然亿级的只有7家,十亿级的2家,百亿级的1家,这是调查芯片规模的数据。
应用方可靠性能力不足就用不好,因为不知道放在这里会有什么风险,设计时候选用什么样的规格是最合理的,电路结构怎么样做保护,会不会做等。对于产品的研制来讲,对于图片上面那一排的整机产品研制流程,大致是包括企划、立项、产品开发、试制、试产、量产过来的,每一个环节都有可靠性的要求,从可靠性设计到验证,到物料可靠性认证,各个环节物料选用的控制,控制的方法,中间识别和应对风险等,还包括生产阶段的质量控制、一致性的持续保障。因为不稳定,这一批好可能下一批可能有点问题,可能这批又好了,用一年、两年没问题,第三年可能有点问题。所以这种可靠性风险怎么样去控制和预防?
本土产品的问题多,举两个例子。这是一个国产的三端稳压器,有一个用户单位说测试性能功能都一样就换了,马上换成国产的,结果发现换上去以后三端稳压器故障率马上增长上千倍,失效率上千倍。原来假如说只有1变成1000的失效率很吓人,又换回去了不敢用。我们做了分析,看右边这个图,耐压不足易静电击穿,因为生产应用的时候都是两三千伏电压的静电很经常见,生产线上面,安装整个过程。他们这个耐压静电击穿的电压就低,低的原因看里面的介质层,对照检查、结构分析,两个国产和进口的一分析就知道里面是介质层的差异,原来进口芯片介质层有100纳米(可以抵抗8000V的静电),我们本土产的只有60纳米(只能抵抗3000V的静电),但是这个按照产品标准检测是合格的。我们使用过程中使用上面生产线很多情况会经常遇到在3000V左右的静电。如果有8000V就没事了。而且静电损伤有时候击穿坏了可以看出来,有时候静电不是击穿,是击伤了,击伤了意味着将来某一天会发生问题,就是可靠性问题了。所以我们讲合格并不代表可靠,可靠的产品也不一定就用得好。
再举一个例子,车上驱动的电源模块,电源模块有电阻,在车开的到处走是的时候很容易发生硫化失效,特别到处都是臭水沟,有硫化物,车的尾气也是有硫化的硫化物:二氧化硫、硫化氢,模块里面电阻有含银的端子,很容易产生硫化,产生硫化银,电阻就开路了,这个电源用不了一两年就坏了,但是车要开十年或者更长时间。我们不知道故障模式也不会去控制,或者简单的做法是平时装上去涂点三防漆固化好做点试验通过就完了,实际上我们现在有的三防不但不防硫化还要吸附硫,不会用材料可能会吸附更多硫,硫化更快。我们现在团队遇到类似的案子很多,包括飞机的、发动机的控制板块,黑匣子的板块、电源模块,还有船上用的都发现这种故障。但是这种故障如果我设计的时候知道就会做可靠性设计,做预防、做控制,甚至做来料的控制等等。
简单小结一下,国产芯片有差距,这是毋庸置疑的,不行就是不行,实事求是,不好用因为固有风险大、多,存在批次性的风险,用不好是应用的支撑数据少,应用履历少,不敢用是不知道的风险在哪里,现在很多设计师只要能解决问题,设计出来产品,管它什么国产进口。当然现在也用了很多国产的,要求必须过考核。做军品的必须用国产的,不用就不行。但是用的话又没有数据支持,怎么用?热设计数据、可靠性设计数据要有,芯片应用需要后面一大堆数据支持,没有就没办法弄好。
刚才一汽的王总也讲了国产芯片的事情。我也简单说一下,什么叫真的国产?很多伪空包,“伪”就是假的,表面打个标签或者是标签磨掉,然后芯片国外弄完回来包装一下,包装国产化。“空”就是没有自己知识产权的,产权都是别人的。我们国家有些部门要做国产产品认证,这些认证也是在五所做,客户要搞清楚是不是国产化的,可以拿到五所做评估,我们有这个业务,而且是国家认可的业务。
三、整体解决方案
简单介绍一下这个方案:
第一,解决方案针对芯片的可靠性两个重要的维度来开展:固有可靠性和应用可靠性。芯片设计、研发的时候要按照车规的要求做设计,加强可靠性设计、验证、分析和管理。可靠性是设计进去的,生产出来的,不是靠检查、检测可以做到可靠,是靠设计。用也是要按照标准严格的跟着选用。再有,可靠应用会讲一些怎么样可靠应用具体的事例。
从研制入手,设计阶段要对这些要求搞得很清楚,对刚才讲的整车,可靠性设计有两个重要的输入,你的应用场景、任务剖面和工作环境剖面。环境剖面是在什么情况下用,任务剖面就是要完成什么样的任务,都要搞得很清楚,这是从整机需求来的。整车从外部的环境来的,在哪里用。有的车也有中东版的,也有亚洲版的,根据各个区域的环境要求。
设计每一个环节都有要求,AEC-Q的认证不光是测试的问题,还有一系列的支撑标准推荐的管理要求,零缺陷的管理,16949的管理运行体系。零缺陷管理的要求里面有很大的篇幅,大家有机会可以看一看零缺陷的管理要求的内容。还有运行体系的保障,不是今天做出来合格就可以,而是要持续稳定保证质量可靠性。对MCU、主芯片、SOC的芯片还必须要有ISO 26262的功能安全标准要求,这包括运行体系和产品的要求。当然一些简单的分立器件不需要,整车也不提这个要求,否则成本又高上来了。
严格开展车规的选用认证,这是需要按标准来的,这个标准体系在这里(见ppt)简单秀一下,这个行业里面很多人都熟。可以看到从集成电路到分立器件,到光电子器件到MEMS,传感器模组,功率器件、被动元件分不同的类别,标准有不同的试验要求,项目也有不同的要求。下面一列是做认证各种样例,设计测试版,做各种实验,包括早期失效率试验。
测试的严格程度很高,往往要花好几个月的时间,你看它的项目非常多,如果产品是空封的器件(金属封装或者陶瓷封装)温度等级比较高会用到这种情况,会要做7组实验,其中一组是流片厂那边完成的,大部分实验的时间周期都很长,样品量也很大,做完这个实验大概需要差不多4000只样品。顺便跟大家讲一下,平时普通的鉴定检验或者是科技成果的鉴定、军品的验证检验,最多样品就300只样品,所以车规认证的严格程度是很多领域用的产品认证比不上的。但是车规产品有一个特点,没有特殊场景的要求。而卫星上的芯片,一个DC/DC电源可能要5万块钱一颗,但是它有耐辐照的要求,车规很多时候没有这样的特殊环境适应性的要求。我们讲可靠性是讲一定场景下的,比较起来,车规的要求是最高的一种,对我们消费者来讲是最高要求情况的一种。普通消费品不会介入那些东西。比如说我们讲航天,卫星上用的那些芯片,他们也想选用这里边车规元器件的,但是不同可靠性要求的场景是可以这样的应用的,特种行业地面高可靠装备也可以用车规这个东西。现在很多做军贸产品的单位也讲,她们很多也想办法找车规芯片在用,因此做车规芯片是一个好机会,做好了非车领域也会用,可能比他们自己用的芯片还可靠。车规大量量产还便宜,那些军品的芯片量产也少,像商用飞机、星网,马斯克搞的星网,卫星互联网,低轨道的星互联网,也是用便宜的芯片也就能做出来。原来用一颗卖5万块钱,他用一千颗每一颗才5块钱、10块钱,早就成本降下来了,所以为什么它上天的载荷发射成本降很多,怎么样用才低成本也就非常重要了。
怎么可靠应用,认证过和没认证过的都要要有这么一个流程,怎么保证它的认证和管理,我这方案里包括怎么识别风险、验证风险,最后根据结果来判断使用怎么避免这些风险。
识别风险,从设计开始到器件验证到板级,这些器件要装到板上去的,装到整机上面,每一个地方都有相应的风险,而且高等级的风险验证有时候覆盖会低等级的风险。风险里面我刚才讲的例子就知道,有些关键技术可以用得上,包括结构分析。
芯片看右边那个图,里面的FCBGA封装,将来用各种所谓先进制成的芯片,载板上面又有硅片,这个是大圆片,圆片上还有芯片的封装,里面结构很复杂,里面有些结构看不到,我们需要做一些分析,做结构分析能够发现一些固有可靠性问题。
还有一些验证,验证实验怎么做?不是乱做,根据每个器件、元件、MCU的特点,结构特点、材料特点、设计针对性的实验考察它,所以根据产品特征、应用需求、历史故障做验证。刚才我们讲硫化的问题,有硫化注意做试验去看硫不硫化,不硫化了,这个故障就可以预防,我们讲评估也不是随便评估。
白盒测试,把芯片放到板上去,专门的功能电路、单元电路里面去,再给它加载各种可能应力,在恶劣工况下看器件能不能用,表现好不好。就像我们这个人好不好,放到队伍里面去适用一段时间,看看他和周围上下左右的领导关系处得怎么样,工作怎么样,才能考核这个人,最恶劣的工作给他,最重的任务给他,看他怎么表现。软件有白盒测试,硬件白盒测试是电路级别的,Tier1的企业应该擅长这个东西。
上板考核,看看芯片不能不上板,很多的国产芯片上板能力比较差。芯片本身功能还可以,一上板毛病很多,装不好,要么变形、要么虚焊,要么内部连接端子出问题,键合的问题就暴露出来了,所以上板做实验,上板做验证。
用好芯片最终要建立一套应用可靠性体系,因为我们将来对应用来讲,今天用这个,明天可能没货用那个,再换一个怎么办?要有一套管理的系统,怎么保证导入一个好的芯片,假设不用的时候要换新的产品升级,换一个新的芯片,我们怎么样去认证,还是有一套流程的,选、评、用、控制有一套系统,相当于质量管理体系里面的物料管理,变更A厂到B厂怎么管。
最后分享一个简单的例子(见ppt),这是一个很大的上市万亿市值的公司,要导入这个芯片。这个芯片换国产的,怕美国人制裁就买不到了。他说你拿这个认证我也不是很放心,刚才讲认证过的那一批是可以的,但是是不是持续可以呢?需要我们帮忙做一些事情,我们增加了一些针对风险项量评估方法,包括结构,包括质量一致性,包括可靠性敏感参数。做完以后在去年帮他导入芯片搞了115型的元器件的验证,包括芯片和其它元器件。其中有67个规格有风险不可用,成规导入95块,从进口换的95块国产的,能换成功。我们告诉他哪些可以换,哪些不能换,包括CPK的数据,低于1.67就不建议他换,哪些里面有弹坑、锐利石英砂等,因为封装料里面有这样一些问题,即使现在有这样的封装水平,车规有车规的封装线,这个问题少了,但你看我们数据就知道还是有很多的风险,不是说认证过就拿来直接用,还有很多不能用的,想便宜也不用的。
再看看我们这个数据统计图,我们发现哪些问题,EPROM里面的多余物,弹坑、线盒的缺陷,我们统计了左边图给出的各种各样的风险。
简单做一个总结,汽车行业快速发展对于我们来讲是中国现在产业发展最好的几个亮点之一,一个新能源储能,一个汽车。大家在座的都知道目前国际环境越来越差,内卷越来越厉害,每个行业都在内卷,芯片是一个好的行业了,信息化飞速发展,上车的应用越来越多。刚才讲的结构性矛盾,结构性短缺,这个矛盾同时给我们提供了很好的机会,但是导入新芯片和元器件对车来讲还是有很多挑战和风险,建立对车规芯片全生命周期的可靠性保障体系,对车规芯片的应用来讲至关重要,我们实验室可以给大家提供完整的解决方案,如果大家觉得对芯片不了解,可以找五所,五所有6000人团队,可靠性团队,基本上都是做可靠性的,做芯片的可靠性测试团队大概有200多人,做可靠性分析的团队大概有300来人,做可靠性研究的团队还有100多号人,专门围绕元器件、芯片、材料和工艺的可靠性问题做工作。我们也支撑工信部做了车规的产品目录,还支撑很多车厂做芯片的应用的图谱,也为了支撑各地政府的工作,也为各地的产业工作做了很多支撑的工作,希望将来的日子跟汽车工业协会以及各位同行,还有现在的产业链形成一个很好的生态,大家加强合作,共同促进我国车规芯片健康、持续、高质量发展。
评论