핵심 요약
현재의 멀티모달 AI 모델들은 일반적인 사물 인식에는 능숙하지만, 제조 현장의 미세한 부품 차이나 전문 지식을 요구하는 작업에서는 한계를 보인다. 이 논문은 실제 제조 환경의 2D/3D 데이터를 결합한 대규모 벤치마크를 제공하여, AI가 단순한 시각 인식을 넘어 자율적인 제조 의사결정을 내릴 수 있는 경로를 제시한다.
왜 중요한가
현재의 멀티모달 AI 모델들은 일반적인 사물 인식에는 능숙하지만, 제조 현장의 미세한 부품 차이나 전문 지식을 요구하는 작업에서는 한계를 보인다. 이 논문은 실제 제조 환경의 2D/3D 데이터를 결합한 대규모 벤치마크를 제공하여, AI가 단순한 시각 인식을 넘어 자율적인 제조 의사결정을 내릴 수 있는 경로를 제시한다.
핵심 기여
FORGE 멀티모달 제조 데이터셋 구축
실제 세계의 2D 이미지와 3D 포인트 클라우드를 결합하고, 정확한 모델 번호와 같은 세밀한 도메인 의미론이 포함된 고품질 주석을 갖춘 데이터셋을 구축했다.
3대 핵심 제조 인지 작업 설계
부품 검증(WORKVERI), 구조적 표면 검사(SURFINSP), 조립 검증(ASSYVERI)이라는 세 가지 핵심 작업을 설계하여 MLLM의 세밀한 시각 변별력과 복잡한 논리 추론 능력을 평가한다.
제조 분야 MLLM의 병목 현상 규명
18개의 최신 MLLM을 평가한 결과, 성능 저하의 주원인이 시각적 접지(Visual Grounding) 능력이 아니라 도메인 특화 지식과 형태학적 이해 부족임을 밝혀냈다.
소형 모델의 도메인 적응 가능성 입증
3B 파라미터 규모의 소형 모델을 FORGE 데이터로 미세 조정(SFT)한 결과, 미학습 시나리오에서 정확도가 최대 90.8% 상대적으로 향상되어 실용적인 도메인 적응 경로를 확인했다.
핵심 아이디어 이해하기
기존의 멀티모달 모델은 수많은 이미지-텍스트 쌍을 통해 '나사'나 '너트' 같은 일반적인 개념은 잘 이해하지만, 제조 현장에서 요구하는 'M10 너트'와 'M12 너트'의 미세한 규격 차이를 구분하는 데는 어려움을 겪는다. 이는 모델이 시각 정보를 처리하는 Attention Mechanism이 일반적인 특징 추출에는 최적화되어 있으나, 제조 도메인의 정밀한 수치나 구조적 규칙(Domain Semantics)을 내재화하지 못했기 때문이다.
FORGE는 이 문제를 해결하기 위해 2D 이미지의 시각적 풍부함과 3D 포인트 클라우드의 정밀한 기하학적 정보를 결합한다. 단순히 '무엇이 보이는가'를 묻는 대신, '이 부품이 설계 도면의 규격과 일치하는가' 혹은 '조립 과정에서 누락된 부품이 무엇인가'와 같은 고차원적인 논리 판단을 요구한다.
결과적으로 모델은 단순한 패턴 매칭을 넘어, 부품 간의 물리적 호환성과 제조 공정의 논리적 흐름을 학습하게 된다. 특히 3B 규모의 소형 모델도 적절한 도메인 데이터로 학습시키면 수십 배 큰 모델보다 특정 제조 작업에서 더 뛰어난 성능을 낼 수 있음을 보여줌으로써, 현장 도입 가능한 효율적인 AI 모델의 방향성을 제시한다.
방법론
FORGE 벤치마크는 14개 부품 카테고리와 90개 이상의 고유 모델을 포함하는 2D/3D 통합 데이터셋을 기반으로 한다. 3D 데이터는 0.02mm 정밀도의 핸드헬드 스캐너로 획득한 포인트 클라우드를 사용하며, MLLM의 입력으로 사용하기 위해 정면, 측면, 상단의 3개 직교 투영 이미지(3V)로 렌더링하여 시각적 구조를 보존한다.
평가 프로토콜은 Zero-Shot, Reference-Conditioned(Ref-Cond), In-Context Demonstration(ICD)의 세 단계로 구성된다. Ref-Cond 설정에서는 정상 부품의 참조 이미지를 함께 제공하여 모델이 비교 분석을 수행하도록 유도하며, ICD 설정에서는 해결된 예시를 대화 형태로 제공하여 도메인 지식의 격차를 메운다.
학습 전략으로는 Qwen2.5-VL-3B-Instruct 모델을 대상으로 전체 파라미터 지도 미세 조정(Full-parameter SFT)을 수행한다. bfloat16 정밀도와 1e-5의 학습률을 사용하며, 특정 시나리오(예: 육각 머리 나사)로 학습시킨 후 완전히 다른 제품 카테고리(예: 너트)에서 평가하는 시나리오 기반 분할(Scenario-Based Splitting) 방식을 채택하여 모델의 지식 전이 능력을 엄격히 검증한다.
주요 결과
18개 MLLM 평가 결과, 폐쇄형 모델 중에서는 Gemini-3-Flash와 GPT-5 계열이, 오픈소스 모델 중에서는 Kimi-K2.5와 Qwen3-VL-235B가 우수한 성능을 보였다. 그러나 가장 난이도가 높은 표면 결함 검사(SURFINSP) 작업에서는 최신 모델들도 정확도 50%를 넘기기 어려워 미세한 형태학적 분석 능력의 한계를 드러냈다.
병목 분석(Bottleneck Analysis) 결과, 상위 모델들은 시각적 접지(Visual Grounding)에서 98% 이상의 정확도를 기록하여 부품의 위치를 찾는 능력은 충분함을 입증했다. 반면, 부품의 기능적 차이나 조립 규칙을 적용하는 도메인 추론 단계에서 대다수의 실패가 발생했다.
소형 모델(3B)의 SFT 실험에서는 놀라운 개선이 확인됐다. FORGE 데이터로 학습된 3B 모델은 부품 검증 작업에서 정확도가 28.2%에서 53.8%로 향상되어, 78배 더 큰 Qwen3-VL-235B(54.4%)와 대등한 수준에 도달했다. 이는 제조 도메인에서 모델의 크기보다 고품질의 전문 데이터 학습이 더 중요함을 시사한다.
기술 상세
FORGE 아키텍처는 일반 목적의 MLLM이 3D 데이터를 처리할 수 있도록 다중 뷰 투영(Multi-view Projection) 전략을 사용한다. 3D 포인트 클라우드를 텍스트 좌표로 직렬화하는 방식은 정보 손실이 커서 효과적이지 않음을 실험적으로 증명하고, 대신 기하학적 구조를 보존하는 3V 렌더링을 표준 입력으로 채택했다.
데이터셋의 세밀한 도메인 의미론(Fine-grained Domain Semantics)은 단순한 객체 분류를 넘어 모델 번호 수준의 식별을 가능하게 한다. 예를 들어, 나사의 길이 차이나 나사산의 피치 차이와 같은 미세한 시각적 특징을 텍스트 주석과 연결하여 학습시킨다.
평가 지표로는 정확한 정답 선택 여부를 측정하는 Exact-match Accuracy를 사용하며, 모델의 추론 과정을 분석하기 위해 Set-of-Mark(SoM) 시각적 프롬프팅 기법을 활용한다. 이를 통해 모델이 이미지의 어느 부분을 보고 판단을 내렸는지 추적하고, 지각(Perception)과 이해(Comprehension) 사이의 단절 현상을 정량적으로 분석한다.
한계점
현재 FORGE는 정적인 이미지와 3D 스캔 데이터에 집중하고 있어, 실제 동적인 제조 공정 비디오나 실시간 센서 스트림 데이터에 대한 평가는 포함하지 않는다. 또한, 3D 데이터를 직접 처리하는 네이티브 3D 엔코더를 가진 모델에 대한 최적화된 평가 방식은 향후 과제로 남아있다.
실무 활용
FORGE는 제조 현장의 자동 검수 및 품질 관리 시스템에 MLLM을 도입하려는 기업들에게 실질적인 가이드라인과 학습 리소스를 제공한다.
- 생산 라인에서의 실시간 부품 규격 및 모델 번호 오조립 검사
- 3D 스캔 데이터를 활용한 정밀 부품의 미세 균열 및 변형 자동 탐지
- 복잡한 기계 장치 조립 공정에서 누락되거나 잘못된 부품 설치 여부 확인
- 소형 언어 모델을 활용한 온디바이스 제조 품질 관리 에이전트 구축
코드 공개 여부: 공개
코드 저장소 보기키워드
코드 예제
x, y, z
1896, 750, 31970
3732, -3451, 320513D 포인트 클라우드 데이터를 MLLM이 읽을 수 있도록 정수 좌표 테이블 형태로 직렬화한 예시
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.