왜 중요한가
범용 AI가 이해하기 어려운 3D 프린팅 공정의 전문 지식과 결함 이미지를 정확히 파악하는 특화 모델이다. 적은 양의 데이터로도 특정 산업 분야에 최적화된 멀티모달 AI를 구축할 수 있는 효율적인 방법론을 제시하여 제조 현장의 지능형 자동화 가능성을 입증했다.
핵심 기여
AdditiveLLM2 모델 구축
Gemma 3 (12B) 모델을 기반으로 도메인 적응형 사전 학습(DAPT)과 시각적 지시어 튜닝(VIT)을 적용하여 적층 제조 분야에 특화된 멀티모달 성능을 확보했다.
AdditiveLLM2-OA 전문 데이터셋 공개
4개의 주요 적층 제조 저널에서 추출한 2,900만 개의 텍스트 토큰과 24,000개 이상의 이미지-캡션 쌍을 포함하는 총 5,700만 토큰 규모의 오픈 데이터셋을 구축했다.
Additive-Manufacturing-Benchmark 설계
공정 지식, 용융 풀 치수 예측, FDM 결함 식별 등 적층 제조의 핵심 과업을 평가하기 위한 종합적인 멀티모달 벤치마크를 제안했다.
핵심 아이디어 이해하기
기존 LLM은 인터넷의 방대한 데이터를 학습하여 일반적인 대화에는 능숙하지만, 3D 프린팅과 같은 고도의 전문 분야에서는 용어의 맥락이나 공정 특이성을 정확히 파악하지 못하는 한계가 있다. 특히 텍스트뿐만 아니라 공정 중 발생하는 결함 이미지나 장비 사진을 함께 이해해야 하는 멀티모달 능력이 필수적이다.
본 연구는 Gemma 3 모델을 기반으로 '도메인 적응형 사전 학습(DAPT)'을 수행한다. 이는 모델의 가중치를 완전히 새로 학습시키는 대신, 전문 분야의 텍스트와 이미지를 추가로 노출시켜 모델의 내부 표현(Embedding) 공간을 해당 도메인에 맞게 미세하게 조정하는 방식이다.
여기에 '시각적 지시어 튜닝(VIT)'을 결합하여 이미지를 보고 공정 상태를 설명하거나 질문에 답하는 능력을 극대화했다. 결과적으로 범용 모델보다 훨씬 적은 데이터(5천만 토큰)만으로도 전문 분야에서 90% 이상의 높은 정확도를 확보할 수 있음을 입증했다.
방법론
3단계 순차 학습 전략을 채택했다. 1단계는 텍스트 기반 DAPT, 2단계는 이미지 기반 DAPT(Vision Tower 학습), 3단계는 텍스트와 이미지를 결합한 시각적 지시어 튜닝(VIT)으로 구성된다.
효율적인 학습을 위해 LoRA(Low-Rank Adaptation) 기법을 사용했다. [기존 가중치 W₀에 저순위 행렬 A와 B의 곱인 ΔW = BA를 더하는 연산을 수행하여] → [전체 파라미터를 수정하지 않고 소수의 어댑터 가중치만 갱신함으로써] → [학습 메모리 요구량을 1/3 수준으로 절감하고] → [특정 도메인 지식을 효율적으로 주입했다].
데이터 구축 과정에서 GPT-OSS (120B) 모델을 활용하여 논문 캡션으로부터 복잡한 질문-답변 쌍을 생성하는 합성 데이터 생성 기법을 적용했다. 학습은 3개의 NVIDIA A6000 GPU에서 각 단계별로 3 에포크(Epoch) 동안 진행되었으며, 단계당 약 36시간이 소요됐다.
주요 결과
Additive-Manufacturing-Benchmark 평가 결과, 일반 지식 객관식 문제에서 기본 모델(88%) 대비 향상된 93%의 정확도를 기록했다. 시각적 과업인 LPBF(레이저 분말 베드 용융) 이상 탐지 및 장비 식별 작업에서 최종 VIT 단계 모델이 가장 우수한 성능을 보였다.
특히 Gemma-3-12b-it 기반 모델이 사전 학습만 거친 모델보다 모든 지표에서 압도적으로 우수했다. 용융 풀 치수 예측(Melt pool dimension prediction)에서는 텍스트 기반 DAPT만 수행했을 때 RMSE 수치가 가장 낮게 나타나, 특정 수치 예측 과업에서는 텍스트 데이터의 밀도가 중요함이 확인됐다.
실무 활용
3D 프린팅 공정 모니터링 및 결함 진단 에이전트 구축에 즉시 활용 가능한 기술적 토대를 제공한다.
- 실시간 공정 이미지 분석을 통한 출력 결함(Warping, Stringing 등) 자동 감지
- 공정 파라미터(레이저 파워, 속도 등)에 따른 용융 풀 크기 예측 보조
- 적층 제조 전문 지식 기반의 Q&A 챗봇 및 교육 도구 개발
기술 상세
Gemma 3 (12B)를 백본으로 사용하며, 시각 입력을 위해 SigLIP 비전 인코더(400M)를 결합한 디코더 전용 트랜스포머 아키텍처를 활용한다. LoRA 설정은 rank(r)=16, alpha(a)=32를 적용하여 Self-Attention 블록의 Query, Key, Value, Output 프로젝션 레이어에 어댑터를 삽입했다.
데이터셋 AdditiveLLM2-OA는 Journal of Additive Manufacturing 등 4개 주요 저널의 1,704개 논문에서 PyMuPDF를 이용해 추출된 5,700만 토큰 규모다. 텍스트 데이터는 2,048 토큰 단위의 청크로 제공되었으며, 95%의 학습 데이터와 5%의 검증 데이터로 분할하여 학습을 진행했다.
한계점
학습 데이터의 규모가 5천만 토큰으로 상대적으로 작아 더 방대한 데이터셋을 적용했을 때의 성능 향상 여부가 미지수다. 또한 특정 과업에 특화될 경우 다른 일반 과업의 성능이 저하되는 '파괴적 망각(Catastrophic forgetting)' 현상이 관찰되어 지속 학습(Continual learning) 연구가 필요하다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.