半导体制造中的数据挑战是什么?
半导体制造行业正面临前所未有的数据挑战。如今,现代制造工厂需要处理包含超过百万个测试项的测试程序,在探针测试、封装和测试等工序中,每颗芯片都会产生数千兆字节的数据。规模最大的部署已达到数千兆字节的量级,这引发了一个根本性问题:传统的商业智能工具根本无法处理拥有数百万行和列的半导体级数据。
高通公司首席供应链官迈克·坎贝尔(Mike Campbell)近日表示,由于先进封装工艺日益复杂,半导体企业需要分析的制造和测试数据量自2022年以来已增长了六倍。 在同一场会议上,英特尔公司副总裁兼英特尔代工自动化事业部总经理阿齐兹·萨法指出:“英特尔全公司拥有600拍字节的数据。我们面临的挑战在于,如何在需要利用这些数据解决问题的领域运行算法。”
PDF Solutions首席执行官约翰·基巴里安(John Kibarian)的发言,与他在去年12月PDFSolutions用户大会上的讲话如出一辙。他表示,在许多情况下,收集到的半导体制造数据中,用于分析的占比不超过5%。然而,获取及时的分析结果对于快速提升新型先进工艺节点的良率或确保复杂封装的质量,如今比以往任何时候都更为关键。在此背景下,寻找创新方法来提升半导体数据分析能力至关重要。
PDF Solutions 制定了一项全面战略,旨在增强其 Exensio 数据平台的能力。该平台已在半导体行业得到广泛应用,通过将可扩展的分析基础设施与包括大型语言模型(LLMs)和自主代理在内的先进人工智能能力相结合,从而应对这一挑战。
这种方法标志着半导体制造商对如何从海量、复杂的数据集中提取可操作的洞察进行了根本性的重新思考。
商业智能解决方案能否处理半导体制造过程中产生的海量数据?
传统的商业智能(BI)工具在半导体制造环境中面临着严重的局限性。它们依赖于本地内存,这极大地限制了分析和机器学习的能力。 这些工具缺乏计算和架构的可扩展性,而这往往与半导体数据的特定特性有关——此类数据可能包含数十万甚至数百万个待分析参数。试想一张拥有百万列、数十万行的表格。在传统数据分析或BI工具中可视化此类数据集已达到极限,这种方法无法满足数据规模和复杂性持续增长的行业未来需求。
通常情况下,工程师会基于与原始数据源脱节的汇总统计数据开发定制脚本,而这些脚本在部署时往往缺乏支持在整个组织内进行稳健共享的基础设施。
可扩展分析——一种创新的解决方案架构,旨在实现处理半导体制造数据时的高可扩展性
PDF Solutions 的解决方案是一种具备动态分区功能的新型并行分布式数据架构。该系统不再将原始数据传输至客户端进行分析,而是将数据保留在服务器层,仅向用户提供所需的可视化结果。这种瘦客户端架构使系统能够根据当前需求动态扩展:通过在数据层进行缓存以加快访问速度,并让预配置的分析任务在所有可用数据上持续运行。

结果令人瞩目。基准测试显示,在典型的大型测试程序上,性能提升了约25倍,能够处理超过一百万个测试项,实现了此前无法企及的分析规模。该系统通过在行(单个芯片)和列(测试参数)层面实现可并行化处理来达成这一目标,将静态计算节点与突发式云计算相结合,从而以经济高效的方式扩展至超大规模数据集。
大规模企业级模型运维——如何在半导体行业实现大规模的人工智能模型生命周期管理?
PDF Solutions 认识到,在半导体制造中部署人工智能不仅需要训练模型,更需要一套完整的运营基础设施。其战略旨在解决三大运营挑战:由人工交接和脆弱的集成所导致的部署瓶颈;因构建自定义管道而非利用现有系统而产生的数据摩擦;以及生产模型与训练参数之间血统追踪不完善所带来的治理风险。

该公司宣布推出 Exensio® StudioAI,该平台整合了 Tiber AI Studio(英特尔旗下原有的解决方案,旨在为数据科学家提供从代码到生产的全流程支持)的功能,以及专为半导体数据打造、专注于边缘端模型部署的 Exensio ModelOps。Exensio StudioAI 的路线图涵盖了将于 2026 年前陆续推出的多项关键功能,其中包括支持工程师使用自有模型。 企业级模型注册库将支持模型生命周期治理、追踪与共享,并通过完整的数据可追溯性确保任何模型的训练输入始终可追溯。
半导体语义数据模型——如何打破不同数据源和存储库之间的数据孤岛?
半导体制造面临的最大挑战之一,就是关键数据分散在各个孤立的系统中。良率数据存储在一个地方,设计诊断信息存储在另一个地方,设备遥测数据又存储在另一个地方。这种分散状况阻碍了批量良率数据与物理布局特征之间的关联分析,也使得工程师无法将具体的工艺偏差与最终良率结果联系起来。

PDF Solutions 通过大力推进数据集成来解决这一问题。其平台已超越传统制造分析的范畴,构建了更完善的端到端数据模型,这些模型具有高度的可定制性和可扩展性。例如,与西门子 Tessent的集成提供了用于良率与设计相关性分析的统一界面;而设备数据集成则将设备健康状况和使用信息与良率数据相结合,从而实现基于大型语言模型(LLM)的整体设备效率(OEE)提升,并针对偏差情况进行根本原因分析。
这项工作的核心在于开发一个针对半导体行业的语义数据层,用于映射良率、设计、工艺和设备数据之间的复杂关系。这使得Exensio数据平台能够实现跨领域和跨数据源的数据对齐与关联。此外,它还能让大型语言模型(LLMs)将不同类型的数据视为一个统一整体进行解读,而非在处理彼此割裂的信息源时举步维艰。
以工作流为基础——如何协调分析运营,为半导体制造提供可靠的AI解决方案?
PDF Solutions 平台的一项关键架构决策是将工作流视为系统的内部语言。每项分析操作——无论是规则、机器学习管道还是批处理分析——都以工作流的形式呈现。这带来了多项关键优势。
工作流是系统的长期记忆,不仅记录结果,还完整保留了实现这些结果所采用的方法论。它们可以通过学习模式、大型语言模型(LLMs)、手动或编程方式创建,并可嵌入到更大的工作流中以实现最大程度的复用。工程师可能永远不需要直接与工作流交互,但当需要时,这一功能始终可用。
关键在于,工作流作为半导体领域的专用内容和上下文,将最佳实践编码为可重用的操作指南。它们清晰展示了成果的达成过程,并为人工智能推理提供防护栏,有助于防止大型语言模型在缺乏领域约束的情况下运行时可能产生的“幻觉”。

如何将大型语言模型(LLM)和代理式人工智能(Agentic AI)整合到整体半导体制造分析平台中?
PDF Solutions 的最终目标是让工程师能够以更高的抽象层次与制造数据进行交互。该平台不要求工程师具备查询语言和数据结构方面的深厚技术知识,而是设想构建一个系统,让工程师能够通过自然语言提出问题,并获得可付诸实践的洞察。
要实现这一愿景,需要构建所谓的“语义化、主动化且安全”的基础设施。语义层基于30年的领域专业知识构建,创建了半导体原生的知识图谱,其中编码了制造业的基本数据层次结构。这将大型语言模型(LLM)的推理锚定在制造业数据的结构现实中,从而消除歧义,并提供防止“幻觉”所需的真实背景信息。

例如,该系统能够识别 CV 代表 Characterization Vehicle®,良率代表晶粒分级的结果,且数据层级从批次到晶圆、再到晶粒,最后到封装。它知道常见的分析任务包括良率趋势分析、分级帕累托分析以及单变量筛选。 这使得工程师能够提出诸如“显示过去一周的良率趋势”或“批次XX良率低下的根本原因是什么?”等问题,并获得有意义且准确的回答。
该平台集成了模型上下文协议(Model Context Protocol),使Exensio成为一个真正具备自主能力的系统。该系统不仅能对文本进行摘要或回答问题,还能自主规划并执行完整的工作流程,涵盖从原始数据采集到复杂情节生成的全过程。
为确保可靠性和透明度,所有代理任务均通过可扩展的分析工作流执行。工程师可随时查看、保存和修改这些工作流,以确保对大型语言模型(LLM)操作的完全透明。
鉴于半导体制造数据的极度敏感性,PDF Solutions 提供了一种完全物理隔离的本地大型语言模型(LLM)基础设施方案,旨在保障知识产权主权。这确保了敏感的良率数据和专有模型绝不会离开安全的防火墙,从而无需依赖第三方云服务提供商。
前进之路
PDF Solutions 投入了 18 个月的时间进行技术选型、验证和调优方面的研发工作,并汇集了一支由架构师、开发人员、质量保证专家、设计师和产品经理组成的庞大团队,目前该团队正在致力于该平台的开发。可扩展分析功能将于 2026 年初向早期采用者开放,并将于 2026 年底起向 Exensio Cloud 的客户全面开放。
该公司的愿景旨在应对其认定的行业关键挑战:通过安全地扩展执行规模并最大化传统数据的投资回报率,从而降低人工智能应用的风险,同时为快速崛起的LLM(大型语言模型)和自主代理时代构建具备前瞻性的基础设施。
PDF Solutions 凭借深厚的半导体领域专业知识,将大规模数据处理、企业级 ModelOps、智能数据集成以及具有代理能力的 LLM 技术相结合,致力于改变行业从呈指数级增长的制造数据中提取价值的方式。其解决方案预示着一个崭新的未来:工程师将减少在数据基础设施上的耗时,从而有更多时间专注于解决那些决定半导体制造成败的复杂良率与质量难题。
您可通过此链接查看2025年PDF Solutions用户大会的所有内容。