本博客最初发布于cimetrix.com。
在本系列《智能制造中的EDA应用与效益》的第三篇文章中,我们重点介绍了首项制造应用案例——领先半导体制造商如何运用EDA/接口A标准套件的强大功能。在本文第四篇中,我们将聚焦迄今推动全行业采用EDA的核心应用:故障检测与分类(FDC)。
问题陈述
FDC所解决的问题在于预防因设备偏离可接受工作窗口(无论原因如何)而导致的材料加工报废。当前主流FDC系统采用的技术是:基于"合格"与"不合格"运行数据集的训练,为各类生产运行点建立"简化维度"的统计故障模型。 这些模型通过实时采集设备运行中的关键参数(通常为轨迹数据)进行评估,从而检测工艺偏差并预测即将发生的设备故障。在最先进的晶圆厂中,FDC软件已深度集成至流程管理系统,甚至能在运行中途干预设备操作,以防止或减少废品产生。
当然,此类算法面临的挑战在于开发出足够"严密"的模型,既能捕捉所有潜在故障源(即消除漏报),又需保留足够的灵活性以最大限度减少误报(亦称虚假警报或"狼来了"现象)。 这反过来又要求设备提供高质量数据,并需要大量工艺工程和统计分析专业知识来开发和更新故障模型,以应对必须处理的各种生产情况。高混合铸造环境加剧了这种情况。
解决方案组件
现代FDC系统的核心是一个强大的多元统计分析工具箱,能够处理海量时间序列数据。所谓"海量",既指设备参数的种类数量,也指每个参数的采样数量。这些软件工具能将数百个潜在参数压缩为少量"主成分",仅需使用有限设备参数集(例如20-30个)即可实时计算。 若干主成分的综合表现能足够精确地反映实际工艺状态,从而检测异常偏差。由于这些成分可在实时环境中切实计算,该应用便成为在线设备健康监测系统。
生产型故障诊断控制系统另一关键组件是故障模型库管理功能,该功能需具备处理海量模型的能力。这是因为多变量方法对主成分的物理意义几乎不作考量(即非基于"第一原理"),因此设备不同工作点必须配备专属的故障模型集。 针对特定运行点的正确模型,需通过匹配该运行实例的"上下文参数"值与模型存储参数来选取。即使某些模型可在多个运行点间共享,对大型晶圆厂而言,其独立故障模型的数量仍将达数千之多。
EDA(设备数据采集)标准的优势
在先进的晶圆厂中,针对特定应用存在多种数据采集方案,从基础的批次级汇总信息到可用于基板级甚至单芯片/单区域的详细实时数据。对于FDC而言,这些可能性如下表所示。
|
SEMI标准等级 |
功能性 | 益处 |
| GEM/GEM300 | 故障模型在初始开发后难以更改,即使数据收集要求发生变化 | 基线 |
| EDA冻结I
(1105) |
随着故障模型的发展需要新数据,设备数据采集计划易于变更;
模型开发环境可以与生产系统分离 |
工程劳动减量;改进的故障模型和更低的误报率 |
| EDA冻结II
(0710) |
使用条件触发器精确“框选”追踪数据,同时降低整体数据采集需求;将子工厂组件/子系统数据纳入故障模型。 | 更优的故障模型;缩短故障或进程异常的平均检测时间(MTTD);几乎无需数据后处理 |
| EDA通用元数据(E164) |
包含标准配方步骤级过渡事件,用于高度针对性的追踪数据收集; 通过元数据模型生成所需的数据采集方案,实现初始设备表征流程的自动化 |
更快的工具表征和故障模型开发时间 |
| 工厂专用 EDA要求 |
将先前不可用的设备信号纳入故障模型;
在工艺和配方变更后自动更新数据采集计划和故障模型; 在设备元数据模型中包含配方设定值 |
待定(暂不适用) |
左侧列指明了用于提供必要设备数据的SEMI标准级别。"功能性"列描述了该数据在FDC环境中的应用方式,而"效益"列则突出了这些功能可能产生的潜在影响。
假设某家晶圆厂实现了表格第3行和第4行所述的功能(EDA Freeze II (0710) 及符合E164标准的EDA通用元数据)。 在此情况下,工艺设备将能够以配方步骤特有的采样率提供详细工艺参数,其精度足以评估最严苛FDC模型的"特征提取"算法...同时提供上下文数据以针对特定工艺条件精准选择模型集。 尽管具体设备参数必然取决于工艺流程,但由于E164标准确保了全厂设备接口的一致性,因此大部分软件——包括监控配方执行事件、生成提供追踪数据的数据采集计划(DCP),以及整合模型管理库所用上下文数据的软件——均可实现真正的通用化。

FDC团队可利用的EDA标准另一优势在于其多客户端能力赋予的系统架构灵活性。即便某台设备已接入生产数据管理基础设施,负责开发和优化故障模型的工艺工程师与统计学家仍可使用专为工艺行为分析、实验设计及持续改进定制的独立数据采集系统。当新故障模型准备投入生产时,生产数据采集程序(DCP)即可更新以满足这些新要求。
受影响的关键绩效指标

在当今的晶圆厂中,FDC被视为"关键任务"应用程序,因为设备非计划停机成本高昂,且保持高产品良率至关重要。简而言之,"FDC停机即设备停机",这意味着支撑该应用的实时数据采集基础设施同样具有关键任务属性。因此,FDC性能的提升将对晶圆厂整体表现产生重大影响。
具体而言,故障检测控制(FDC)通过提高故障检测灵敏度,直接影响工艺良率和报废率等关键绩效指标(KPI);同时,它通过减少误报数量(误报常导致设备停产检修),进而影响设备可用性及相关KPI。
那又怎样?
一位睿智的同事在我职业生涯初期曾告诫:每次演讲、撰文或对话结束时,都要为这个问题准备好答案。若要用财务术语来回答本文中的这个问题,让我们来估算300mm量产晶圆厂中FDC误报的成本。
假设
- 每小时设备使用时间价值2200美元,合格晶圆成本为250美元,每小时工程师/技术人员工时成本为150美元,
- 处理一次误报需要5小时工具时间、2小时工程时间以及6块合格晶圆。
每次误报会给公司造成近1.2万美元的损失。对于拥有2000台设备的晶圆厂而言,若平均误报率为每年每台设备2次,则年损失高达近5000万美元!若将误报率降低50%(这一目标完全可行),每年即可节省2500万美元。

若您认为这笔投资物有所值,请立即致电我们。我们将助您理解如何踏上智能制造之路——通过构建符合行业标准的数据采集基础设施,为新一代FDC系统及更先进技术提供坚实支撑。
要深入了解自动化需求的EDA/接口A标准,请立即下载EDA/接口A白皮书。