반도체 엔지니어링에 게시됨: 원본 기사를 보려면 여기를 클릭하세요
작성자: 앤 마이크너
검사 이미지와 계측 측정 데이터의 폭발적 증가로 반도체 제조사와 장비 공급업체는 혼란스러운 요구 사항에 직면하고 있다. 한편으로는 AI/ML 기반 모델을 활용하기 위해 클라우드의 방대한 저장 및 컴퓨팅 자원이 필요하지만, 다른 한편으로는 장비 수준에서 조정을 수행하기 위해 에지의 빠른 응답 시간도 요구된다.
이러한 요구사항을 균형 있게 조화시키는 것은 막대한 비용이 드는 도전 과제입니다. 이를 위해서는 상류 및 하류 데이터에 대한 접근권과 정교한 머신러닝 모델이 모두 필요합니다. 목표는 고품질 데이터만을 클라우드로 전송하여, 거대한 양의 데이터를 머신러닝 알고리즘으로 효율적으로 처리하는 것입니다. 이를 통해 의사결정 모델이 고속 검사 및 계측 목적에 필요한 정밀도와 정확성을 제공할 수 있게 됩니다. 동시에 이는 검사/계측 장비 수준, 공장 수준, 그리고 시설 간 수준에서 데이터 저장 및 컴퓨팅 리소스에 대한 투자 확대를 요구합니다.
지난 몇 년간 머신러닝이 검사 및 계측 분야에 점차 도입되어 왔으나, 클라우드와 에지 데이터의 통합은 새로운 발전이다. 머신러닝은 광학, 전자빔, X선, 적외선, 음향 검사를 포함한 다양한 반도체 공정 전반에 걸쳐 다중 기판의 계측 및 검사에 효과적인 것으로 입증되었다.
KLA 대변인은 "당사의 검사 시스템은 웨이퍼, 레티클, 패키지, IC 기판 및 PCB의 결함을 포착하고 식별합니다"라고 말했습니다. "이 검사 장비들은 AI를 활용하여 주변 패턴 및 공정 노이즈로부터 미세한 결함 신호를 구분하고 진화하는 검사 요구사항에 적응합니다. 통합된 AI를 통해 검사 시스템은 중대한 결함에 대한 상세한 통찰력을 제공하여 제조업체가 개발을 가속화하고 생산을 최적화하며 혁신적인 전자 기기의 시장 출시 기간을 단축하는 데 도움을 줍니다."
더 많은 측정 각도와 다양한 심도를 활용함으로써 풍부한 맥락 기반 평가가 가능해지며, 이는 탐지 감도를 향상시킵니다.
마이크로트로닉의 라이너 펜스케 사장은 "거시적 결함 검사를 위한 자동 광학 검사(AOI)는 특정 각도의 축상 및 축외 조명을 조합하여 광범위한 결함을 포착합니다"라고 말했다. "컴퓨터 처리 능력의 지속적인 향상, 더 나은 오버레이 정확도를 위한 정밀 하드웨어, 머신 러닝 및 소프트웨어 알고리즘은 그 검출 능력에 엄청난 영향을 미쳤습니다."
검사 단계에서 머신러닝 기반 결정이 이루어지는 동안, 클라우드 기반 머신러닝 알고리즘은 에지 컴퓨팅 알고리즘을 도출합니다.
노드슨 테스트 앤 인스펙션(Nordson Test & Inspection)의 첨단 기술 솔루션 제품 엔지니어링 수석 이사 찰리 주(Charlie Zhu)는 "반도체 검사 및 계측에 인공지능(AI)과 머신러닝을 활용하는 것은 더 이상 사용 여부가 아니라 어떻게 도움이 될 것인지의 문제"라고 말했다. "다른 업계 플레이어들과 마찬가지로, 우리는 더 많은 데이터를 클라우드로 전송하고 있습니다. 분명히 클라우드와 엣지 컴퓨팅 간에는 상충 관계가 존재합니다. 검사 및 측정은 특히 인라인 100% 검사를 제공하는 당사 제품의 경우 엣지 컴퓨팅으로 계속 수행될 것입니다. 엣지 컴퓨팅은 여전히 더 빠릅니다. 모델 훈련에는 GPU 연산 능력이 필요하므로 클라우드에서 수행하는 것이 바람직합니다. 그러나 일단 훈련이 완료되면 추론을 위한 연산 능력은 덜 요구됩니다."
클라우드와 에지 간 컴퓨팅의 균형은 측정 및 의사 결정 목표에 따라 달라집니다.
"제 경험상 장비 공급업체들은 항상 장비 레시피 문제 해결 등을 위해 데이터를 클라우드에 공개하기를 원해왔습니다."라고yieldWerx의 CEO인 Aftkhar Aslam은 말했습니다. "IDM 업체들은 크로스-제조 상관관계 분석과 근본 원인 분석을 수행할 수 있도록 데이터를 클라우드에 확보할 필요가 있다고 밝혔습니다. 하이브리드 접근 방식을 권장합니다. 특정 문제(초기 기술 도입, 중복이 큰 신제품 도입(NPI) 라이프사이클 단계 제품, 공정 수율과의 상관관계 등)에 대한 핵심 데이터는 에지보다 클라우드에 보관하는 것이 합리적입니다."
다른 전문가들도 하이브리드 아키텍처 접근 방식이 대부분의 컴퓨팅 요구 사항에 적합하다는 데 동의하며, 이는 데이터 양과 애플리케이션에 따라 달라질 수 있습니다.
PDF 솔루션즈의 기술 제품 관리 디렉터인 스티브 자멕은 "모든 상황에 적용할 수 있는 단일한 접근 방식은 존재하지 않는다"고 말했다. "모델을 에지에 배포할 수 있는 전사적 플랫폼을 갖춘 하이브리드 아키텍처가 최상의 선택이 될 수 있습니다. 이러한 고려 사항은 AI/ML 모델에만 해당되는 것이 아닙니다. 많은 고객사가 수년 전 규칙 기반 모델 배포에도 유사한 접근법을 사용했습니다. 그러나 모델 규모가 커지면서 일부 대규모 모델의 훈련은 확장 가능한 중앙 집중식 인프라, 즉 클라우드에서만 가능합니다."

표 1: 다양한 배포 옵션의 장단점. 녹색은 우수, 노란색은 허용 가능, 빨간색은 불량. 출처: PDF Solutions
클라우드에서
복잡한 이미지 분석 과제에서 고급 머신러닝 알고리즘을 활용하면 결함 탐지 능력이 크게 향상됩니다. 머신러닝 모델 개발에는 수십만 장의 관련 이미지가 필요하며, 바로 이 점에서 클라우드 컴퓨팅이 진가를 발휘합니다. 방대한 양의 데이터를 처리하기 위한 효율적인 GPU 기반 컴퓨팅을 제공하기 때문입니다.
검사 및 계측 데이터를 상류 및 하류에서 수집된 데이터와 결합하여 미세한 결함을 발견하는 추세도 증가하고 있습니다. 이는 더 많은 컴퓨팅을 클라우드로 이동시키며, 다중 데이터 소스에서 정보를 추출하는 데이터 인프라 플랫폼의 필요성을 보여줍니다. 여기서 데이터 품질은 가장 중요합니다.
온토이노베이션의 제품 마케팅 디렉터 한우영은 "ML 기반 검사는 라이브러리에 저장된 사전 훈련된 결함 모델을 활용해 결함을 인식합니다. 패턴 반복에 의존하는 기존 방식과 달리 ML 알고리즘은 다양한 훈련 이미지 세트의 특징을 분석하므로 부분 다이 및 웨이퍼 가장자리 검사에도 적합합니다"라고 설명했다. "또한 ML 모델은 특정 결함 유형을 인식하도록 훈련되기 때문에 결함 분류가 검사 과정과 동시에 이루어져 효율성과 정확성을 향상시킵니다."
고급 머신러닝 구축에 필요한 모든 이미지를 모으는 작업은 비용을 중시하는 제조 시설에 부담스러운 투자로 다가온다. 이러한 데이터 인프라의 복잡성은 다중 팹에서 다이(die)를 조달하는 칩릿 기반 제품으로 갈수록 더욱 심화된다.
노드슨의 주(Zhu)는 "현재 고객이 AI를 도입하는 데 가장 큰 걸림돌은 초기 비용입니다"라고 말했다. "금전적 비용이 아니라 모든 데이터를 수집하는 노력을 말하는 것입니다. 이러한 모델을 훈련시키려면 방대한 양의 데이터가 필요합니다. 일부 모델은 수십만 개에서 수백만 개에 이르는 이미지 조각이 필요합니다. 우리는 범용 모델을 제공함으로써 이 문제를 해결하고 있습니다. 우리가 보유한 데이터로 모델을 훈련시키는 중노동을 대신 수행하는 것입니다. 하지만 모든 모델 개발이 이런 방식으로 가능한 것은 아닙니다. 응용 분야에 따라 다릅니다. 예를 들어, 모든 PCB는 부품 유형 측면에서 유사하게 보인다는 점을 발견했습니다. IPC 표준에 따라 사용되는 패키지 유형(예: QFP, QFN)은 제한적입니다. 우리는 이러한 모든 PCB 부품 이미지 데이터를 수집하여 어떤 PCB 기판에서도 분할 작업을 수행할 수 있는 범용 모델을 훈련시킵니다.” [1]

그림 1: AI를 활용한 AOI PCB 분할 및 이미지 내 특징 분할/라벨링. 출처: Nordson Test and Inspection
검사 이미지 데이터와 전기 시험 데이터를 결합하는 것은 모델 구축에서 표준 관행이 되었다. 이 추가 정보는 영향력 있는 결함과 방해 요소를 구분하기 위한 모델 입력값을 제공한다.
PDF의 자멕은 "이미지 분류라는 간단한 작업을 예로 들어보자"고 말했다. "모델 훈련을 위해 결함이 치명적인지 사소한지 판단하는 '진실값(ground-truth)'으로 전기 테스트를 활용할 수 있다. 이를 위해서는 웨이퍼 분류, 패키지 레벨 테스트, 번인 테스트 등 다양한 단계에서 전기 테스트 데이터를 수집해야 한다. 그리고 이 데이터는 사용 편의성을 위해 이상적으로는 클라우드에서 여러 사이트에서 수집되어야 합니다. 훈련에는 다양한 공정 기술, 검사 방법 및 장비, 검사 레시피 등을 포괄하기 위해 대량의 이미지가 필요합니다. 이는 확장 가능한 컴퓨팅 리소스에 대한 접근을 필요로 하며, 다시 한번 클라우드 솔루션으로 이끕니다."
모델이 구축되면 에지 컴퓨터에서 검사 시점에 적용할 수 있습니다. 그러나 지속적인 개선이 필요합니다. 모델은 여러 검사/계측 도구, 종종 여러 제조 시설에서 수집된 데이터를 기반으로 수시로 업데이트되어야 합니다. 해당 데이터는 클라우드로 피드백되어 모델이 수정된 후 현장 도구들에 배포됩니다.
더 많은 데이터 연결
엔지니어링 팀은 다양한 출처에서 데이터를 추출할 수 있는 능력을 바탕으로, 상류의 장비 매개변수와 하류의 이미지 데이터 및 전기 테스트 데이터 간의 관계를 규명하는 고급 머신러닝 모델을 개발할 수 있습니다. 이를 통해 공장 내 이상 징후를 식별하고 근본 원인 분석을 가속화할 수 있습니다.
PDF의 자멕은 "인라인 계측 및 검사(팹 및 파운드리)의 핵심 과제는 장비에 훈련 및 배포된 모델이 해당 장비에서 이용 가능한 데이터 유형으로 제한된다는 점이며, 이는 상당히 제한적"이라고 지적했다. "우리는 모든 현장의 모든 작업에서 발생하는 모든 데이터를 한곳에 통합할 수 있는 플랫폼을 제공해 왔습니다. 그리고 계측 데이터를 PCM(상변화 재료)과 연계하거나, 인라인 검사를 수율과 연결하는 등 모델을 구축 및 배포하는 사례가 점점 늘어나고 있습니다."

그림 2: 공장 간 모델 구축을 위해 클라우드로 공급되는 전형적인 제조 데이터 파이프라인. 출처: PDF Solutions
간단히 말해, 공장 내 여러 출처와 공장 간 데이터를 결합하는 것은 입증된 이점이 있습니다.
온토 이노베이션의 엔터프라이즈 소프트웨어 현장 애플리케이션 디렉터 멜빈 리 웨이 헝은 "근본적으로 데이터 분석 접근법은 AI와 머신러닝 모델의 등장으로 크게 진화했다"고 말했다. "이러한 모델들은 추적성을 크게 향상시켜 거시적 결함 탐지 및 시정 조치의 핵심 요소로 자리매김했습니다. 백엔드에서 프런트엔드 프로세스에 이르는 정보를 연계하고 연결하는 능력 덕분에, 공장은 부품이 백엔드 공정에 도달하기 전에도 프런트엔드에서 예측 모델을 구현할 수 있게 되었습니다. 이러한 통합은 대응 시간과 의사 결정 정확도를 개선하여 보다 효율적이고 효과적인 결함 관리로 이어졌습니다."
에지에서
모델은 클라우드에서 구축되고 에지에서 적용됩니다. 검사/계측 시스템에서 데이터를 클라우드로 이동시켜 결정을 내린 후 다시 시스템에서 실행하는 것은 단순히 비실용적입니다. 신속한 시정 조치를 위해서는 검사 및 계측 결정이 가능한 한 실시간에 가깝게 상류 공정 데이터와 연결되어야 합니다.
“검사 및 계측 데이터에 대한 신속한 의사 결정이 항상 필요합니다. 신속하게 피드백 루프를 닫아 결함을 유발하는 공정 단계를 정확히 파악하고, 재작업이 필요한지 판단하며, 현재 진행 중인 작업(WIP)에 미치는 영향을 평가해야 합니다.”라고 yieldWerx의 아슬람은 말했습니다. "클라우드에만 의존할 경우 보안, 네트워크 지연, 잠재적 접근 불가 문제 등 우려사항이 명백합니다. 데이터 접근이 불가능해지면 접근이 복구될 때까지 로트와 장비를 중단해야 할 수 있으며, 이로 인해 상당한 비용이 발생할 수 있습니다."
테스트 시스템이 ATE(자동 테스트 장비)와 함께 컴퓨팅 박스를 추가한 것처럼, 검사 및 계측 장비 공급업체들도 이제 별도의 로컬 GPU 컴퓨팅 리소스를 제공하고 있다.
온토의 한 씨는 "높은 처리량을 유지하기 위해 머신러닝 기반 검사는 기존 검사 기술과 병렬로 작동하는 별도의 그래픽 처리 장치(GPU)가 필요하다"며 "이러한 병렬 처리 방식은 머신러닝 사용이 결함 탐지 및 분류 능력을 향상시키면서도 처리량에 부정적인 영향을 미치지 않도록 보장한다"고 말했다.
GPU는 지역화된 의사결정을 지원하기 위한 필수 요소가 되었습니다. KLA 대변인은"당사 제품 포트폴리오내에서AI는 이미지 처리 및 데이터 추출 관련 작업 부하를 GPU로 전환하여 이미지 컴퓨터의 효율성과 성능을 향상시켰습니다"라고 말했습니다. "이러한 GPU 기반 이미지 컴퓨터 아키텍처는 실시간 데이터 처리와 AI 알고리즘 활용을 지원하는 '엣지' 컴퓨팅 시스템으로, 인라인 모니터링을 위한 즉시 접근 가능한 데이터 스트림을 생성하여 반도체 제조업체의 결과 도출 시간 단축과 수율 향상에 기여합니다."
결론
검사 애플리케이션에 AI/ML을 성공적으로 적용하려면 클라우드 및 에지 컴퓨팅 리소스와 축적된 이미지가 모두 필요합니다. 모델 구축을 위해 클라우드는 최소 10만 장의 이미지를 사용하며, 대개 백만 장 이상의 이미지를 사용합니다.
제조 공정 전반에 걸쳐 검사 데이터를 다른 장비 데이터(예: 전기 테스트)와 결합하는 추세는 확장 가능한 클라우드 컴퓨팅 리소스에 접근할 수 있는 중앙 집중식 데이터 레이크를 필요로 합니다. 이를 통해 생성된 AI/ML 모델은 영향력 있는 결함의 탐지 성능을 향상시킵니다. 이후 검사 시스템은 공장 수율 관리 시스템에 입력될 수 있는 인근 GPU 리소스와 함께 에지에서 해당 모델을 배포합니다.
제조 시설에서 수율과 품질 개선에 미치는 긍정적 영향은 의문의 여지가 없습니다. 온토 이노베이션의 수석 제품 매니저 숀 킹은 "궁극적으로 계측 및 검사를 위한 머신러닝 기반 분석 기법은 측정 수준에서 항상 크게 달라질 것"이라고 말했습니다. "그러나 공정 복잡성과 데이터 양이 급증함에 따라, 패턴을 식별하고 맥락 속에서 결과를 더 지능적으로 분석하기 위해 AI와 머신러닝을 활용하는 방식이 방법론 간에 점점 보편화되고 있습니다. 수율은 결함 및 공정 단계의 개별적 최적화보다는, 서로 얽혀 있고(항상 명확히 연관되지는 않는) 요소들로 구성된 전체적인 '수율 공간'에 관한 개념으로 변화하고 있습니다."