发布于《半导体工程》: 点击此处查看原文
作者:安妮·迈克斯纳
检测图像和计量测量数据的爆炸式增长,正给芯片制造商及其设备供应商带来一连串令人困惑的需求。一方面,他们需要云端海量的存储和计算资源来运用基于人工智能/机器学习的模型;另一方面,他们又需要边缘计算更快的响应速度,以便在工具层面进行调整。
平衡这些需求是一项艰巨且代价高昂的挑战。它需要同时获取上游和下游数据,并运用精细化的机器学习模型。 目标是仅将高质量数据传输至云端,通过机器学习算法高效处理海量数据。这反过来使决策模型能够提供高速检测和计量所需的精准度与准确性。与此同时,这还要求在检测/计量工具层面、工厂层面以及跨设施层面加大对数据存储和计算资源的投入。
近年来,机器学习技术正逐步渗透到检测与计量领域,而云端与边缘数据的融合则是最新进展。该技术已在多种半导体工艺中展现出显著成效,包括光学、电子束、X射线、红外及声学检测,可实现对多种基材的计量与检测。
KLA发言人表示:“我们的检测系统能够捕捉并识别晶圆、掩模版、封装件、IC基板和PCB上的缺陷。这些检测设备运用人工智能技术,从周围图案和工艺噪声中识别出细微的缺陷信号,并能适应不断变化的检测需求。通过集成人工智能,检测系统可对关键缺陷提供详细分析,助力制造商加速研发进程、优化生产流程,并加快创新电子设备上市速度。”
通过采用更多测量角度和不同的景深,能够实现更丰富的基于上下文的评估,从而提高检测灵敏度。
Microtronic总裁Reiner Fenske表示:“用于宏观缺陷的自动光学检测(AOI)技术,通过在特定角度结合轴上与轴外照明,能够捕捉各类缺陷。计算机处理能力的持续提升、提升对准精度的精密硬件、机器学习以及软件算法的进步,都极大增强了其检测能力。”
虽然基于机器学习的决策是在检测步骤中做出的,但基于云的机器学习算法却衍生出了边缘计算算法。
诺德森测试与检测公司先进技术解决方案产品工程高级总监朱查理表示:“在半导体检测与计量领域应用人工智能和机器学习,已不再是是否采用的问题,而是如何发挥其作用的问题。与其他行业参与者类似,我们正将更多数据推送至云端。 云端与边缘计算之间确实存在权衡关系。检测与测量仍将通过边缘计算实现,特别是对于我们提供在线100%检测的产品而言,边缘计算速度依然更具优势。模型训练则更适合在云端进行,因为训练模型需要强大的GPU计算能力。但模型训练完成后,推理所需的计算能力要求就相对较低了。"
云端与边缘计算的平衡取决于测量和决策目标。
“根据我的经验,设备供应商一直希望数据能存储在云端,以便他们排查设备配方等问题,”yieldWerx首席执行官阿夫特卡尔·阿斯拉姆表示。“集成电路制造商也表明需要云端数据支持,以便进行跨制造关联分析和根本原因分析。 建议采用混合方案:对于特定问题(如早期技术导入、新产品导入生命周期阶段存在大量重叠的产品,或与工艺良率相关的数据),将关键数据存储在云端而非边缘设备更为合理。"
其他人也认同,混合架构方案能满足大多数计算需求,这些需求可能因数据量和应用场景的不同而有所差异。
PDF Solutions技术产品管理总监史蒂夫·扎梅克表示:“没有万能的解决方案。” "采用混合架构,结合可将模型部署至边缘的企业级平台,或许能兼顾各方优势。这些考量并非仅适用于AI/ML模型——多年前,众多客户就采用类似方法部署基于规则的模型。但随着模型规模持续扩大,部分大型模型的训练只能在可扩展的集中式基础设施(即云端)中实现。"

表1:不同部署方案的优缺点。绿色表示良好,黄色表示可接受,红色表示较差。来源:PDF Solutions
在云端
面对复杂的图像分析难题,先进的机器学习算法能显著提升缺陷检测能力。机器学习模型的开发需要数十万张相关图像,而云计算正是在此大放异彩——它通过高效的GPU计算处理海量数据。
此外,将检测与计量数据与上下游采集的数据相结合以揭示细微缺陷的趋势日益明显。这促使更多计算任务转移至云端,凸显了构建能够整合多源数据的数据基础设施平台的必要性。在此过程中,数据质量至关重要。
Onto Innovation产品营销总监Woo Young Han指出:“基于机器学习的检测依赖于存储在库中的预训练缺陷模型来识别缺陷。与依赖模式重复的传统方法不同,机器学习算法通过分析多样化训练图像集的特征,使其特别适用于检测局部芯片和晶圆边缘。” "此外,由于机器学习模型经过特定缺陷类型的训练,缺陷分类与检测过程同步进行,从而提升了效率和准确性。"
为构建高级机器学习模型而收集所有必要图像,对注重成本的制造工厂而言是一项艰巨的投资。这种数据基础设施的复杂性在采用小芯片架构的产品中尤为突出——这类产品需从多家晶圆厂采购芯片。
诺德森公司的朱先生表示:“当前阻碍客户采用人工智能的最大障碍是前期投入成本。我指的并非金钱成本,而是收集全部数据所需的努力。训练这些模型需要海量数据,某些模型需要数十万甚至数百万张图像样本。我们通过提供通用模型来解决这个问题——利用现有数据完成模型训练的艰巨任务。 但并非所有模型开发都能采用这种方式,具体取决于应用场景。例如我们发现,从元件类型来看所有PCB板都具有相似性——根据IPC标准,封装类型(如QFP、QFN等)数量有限。我们收集所有PCB元件图像数据,训练出通用模型后即可对任意PCB板进行分割处理。"[1]

图1:AOI PCB分割技术,利用人工智能对图像中的特征进行分割/标注。来源:诺德森测试与检测
将检测图像数据与电气测试数据相结合已成为建模的标准做法。这些补充信息为模型输入提供了依据,从而能够区分干扰性缺陷与影响性缺陷。
PDF公司的扎梅克指出:“以简单的图像分类任务为例。在模型训练中,可采用电气测试作为缺陷判定标准——即判断缺陷是致命缺陷还是次要缺陷。为此需要从多个环节收集电气测试数据,包括晶圆分选、封装级测试、老化测试等。 这些数据需从多个站点采集,理想情况下应部署在云端以提升易用性。训练过程需要海量图像数据来覆盖不同工艺技术、检测方法与设备、检测配方等要素。这要求具备可扩展的计算资源,再次推动了云解决方案的应用。”
模型构建完成后,可在边缘计算机的检测点直接应用。但需持续优化改进:该模型需基于多台检测/计量工具(通常来自多个制造基地)的数据进行定期更新。相关数据将回传至云端,模型经修改后重新部署至现场设备中。
连接更多数据
凭借从多源数据中提取信息的能力,工程团队能够开发先进的机器学习模型,揭示上游设备参数与下游图像数据及电气测试数据之间的关联。这有助于识别异常情况,并加速工厂内部的根本原因分析。
PDF公司的扎梅克指出:“在线计量与检测(在工厂和代工厂中)面临的核心挑战在于,部署在设备上的训练模型仅限于该设备可获取的数据类型,而这类数据相当有限。” "我们提供了一个平台,能够将所有运营环节、所有厂区的数据整合到统一系统中。我们正看到越来越多的应用场景,通过构建和部署模型将计量与相变材料(PCM)关联起来,将在线检测与良率关联起来,等等。"

图2:典型制造数据管道,将数据输送至云端以构建跨工厂模型。来源:PDF Solutions
简而言之,整合工厂内部及跨工厂的多源数据已被证实具有显著效益。
“从根本上说,随着人工智能和机器学习模型的出现,数据分析方法已发生重大演变,”Onto Innovation企业软件现场应用总监Melvin Lee Wei Heng表示。 "这些模型极大提升了可追溯性,使其成为宏观缺陷检测与纠正措施的关键环节。通过将后端与前端流程的信息实现联动,工厂得以在零件抵达后端工序前,就在前端部署预测模型。这种集成显著缩短了响应时间并提高了决策准确性,从而实现更高效、更精准的缺陷管理。"
在边缘端
模型在云端构建,在边缘端应用。将数据从检测/计量系统传输至云端,再返回系统执行决策的做法根本不切实际。为实现快速纠正措施,检测与计量决策必须尽可能实时地与上游工艺数据相连接。
“在检测和计量数据方面,始终需要快速决策,迅速完成闭环以精准定位导致缺陷的工艺环节,判断是否需要返工,并评估对当前在制品的影响,”yieldWerx的阿斯拉姆表示。 “仅依赖云端存在明显隐患——安全风险、网络延迟及潜在的不可访问性。一旦数据中断,整批次产品和设备可能被迫停产直至恢复访问,这往往会造成巨大损失。”
正如测试系统在自动测试设备(ATE)旁增设了计算单元,检测与计量设备供应商如今也提供了独立的本地GPU计算资源。
“为保持高吞吐量,基于机器学习的检测需要独立的图形处理单元(GPU),该单元与传统检测技术并行运作,”Onto公司的韩表示。“这种并行处理方式确保了机器学习的应用既能提升缺陷检测与分类能力,又不会对吞吐量造成负面影响。”
GPU已成为支持本地化决策的必要组件。 KLA发言人表示:"在我们的产品组合中,人工智能已将图像处理和数据提取相关的工作负载转移至GPU,从而提升了图像计算机的效率和性能。这些基于GPU的图像计算机架构属于'边缘'计算系统,支持实时数据处理和人工智能算法的应用,可生成即时可用的数据流用于在线监测,这有助于半导体制造商缩短结果获取时间并提升良率。"
结论
成功将人工智能/机器学习应用于检测领域,需要同时具备云端与边缘计算资源以及海量图像数据。在模型构建阶段,云端至少需要10万张图像,通常则需百万级别的数据量。
在整个制造过程中,将检测数据与其他设备数据(例如电气测试)相结合的趋势,需要建立一个能够访问可扩展云计算资源的集中式数据湖。由此生成的AI/ML模型可提升对关键缺陷的检测能力。随后,检测系统将该模型部署至边缘端,利用邻近的GPU资源进行处理,并将结果输入工厂的良率管理系统。
机器学习技术对提升制造设施产量和质量的积极影响毋庸置疑。Onto Innovation首席产品经理肖恩·金表示:"归根结底,基于机器学习的计量与检测分析技术在测量层面始终存在显著差异。" "然而随着工艺复杂度和数据量激增,运用人工智能与机器学习识别模式、在上下文中更智能地分析结果,正成为各类方法间的普遍趋势。良率优化不再局限于缺陷与工艺步骤的孤立改进,而是转向对相互交织(且关联性未必明确)的因素所构成的整体'良率空间'进行系统性优化。"