핵심 요약
산업 현장의 복잡한 도면과 문서를 이해하기 위해 최적화된 시각-언어 모델입니다. 32B 규모의 언어 모델에 1.2B 시각 인코더를 결합하여 한국어 문맥 이해와 문서 파싱 성능에서 SOTA급 성능을 달성했으며, 누구나 활용 가능한 오픈 웨이트 형태로 공개되어 산업용 AI 생태계 확장에 기여합니다.
왜 중요한가
산업 현장의 복잡한 도면과 문서를 이해하기 위해 최적화된 시각-언어 모델입니다. 32B 규모의 언어 모델에 1.2B 시각 인코더를 결합하여 한국어 문맥 이해와 문서 파싱 성능에서 SOTA급 성능을 달성했으며, 누구나 활용 가능한 오픈 웨이트 형태로 공개되어 산업용 AI 생태계 확장에 기여합니다.
핵심 기여
1.2B 파라미터 규모의 전용 시각 인코더 통합
기존 EXAONE 4.0 32B 언어 모델에 처음부터 새롭게 학습시킨 1.2B 규모의 Vision Encoder를 통합하여 텍스트와 이미지를 동시에 처리하는 멀티모달 능력을 확보했다.
256K 토큰의 초장기 컨텍스트 확장
SFT 단계에서 컨텍스트 확장을 직접 통합하여 최대 256K 토큰까지 지원한다. 이를 통해 수백 페이지의 기술 매뉴얼이나 복잡한 엔지니어링 문서를 한 번에 분석할 수 있다.
문서 중심 및 한국어 특화 데이터 큐레이션
도표, 차트, 수식이 포함된 고밀도 문서 데이터와 한국 관광 공사, IT 동아 등 국내 데이터를 활용해 한국어 문맥 및 시각적 문서 이해 성능을 극대화했다.
Multi-Token Prediction(MTP) 도입을 통한 추론 가속
K-EXAONE에서 검증된 MTP 모듈을 적용하여 한 번의 추론 단계에서 여러 토큰을 예측함으로써 디코딩 처리량을 개선했다.
핵심 아이디어 이해하기
기존의 시각-언어 모델(VLM)은 주로 작은 규모(약 600M)의 시각 인코더를 사용하거나 이미지 해상도를 낮춰 토큰 수를 줄이는 방식을 택했다. 하지만 이는 복잡한 도면이나 작은 글씨가 포함된 산업용 문서의 세부 정보를 손실시키는 원인이 된다. EXAONE 4.5는 이 문제를 해결하기 위해 1.2B 규모의 대형 시각 인코더를 처음부터 학습시켜 풍부한 시각적 표현력을 확보했다.
이 모델은 Transformer 아키텍처의 핵심인 Attention 메커니즘을 효율적으로 관리하기 위해 Grouped Query Attention(GQA)을 시각 인코더와 언어 디코더 모두에 적용했다. 시각 정보가 입력될 때 2D RoPE(Rotary Positional Embedding)를 사용하여 이미지의 2차원 공간 구조를 보존하며, 이를 언어 모델의 1차원 시퀀스 데이터와 정렬시킨다.
결과적으로 모델은 고해상도 이미지에서 추출된 수많은 시각 토큰을 연산 효율성을 유지하면서도 정밀하게 처리할 수 있게 되었다. 이는 단순히 그림을 설명하는 수준을 넘어, 복잡한 수식이나 도표 간의 논리적 관계를 텍스트와 연결하여 추론하는 '산업적 지능'의 기초가 된다.
방법론
전체 아키텍처는 EXAONE 4.0 32B 언어 백본에 1.2B Vision Encoder를 MLP Projector로 연결한 구조이다. 시각 인코더는 Autoregressive 목적 함수를 사용하여 처음부터(From-scratch) 학습되었으며, 효율적인 추론을 위해 Multi-Token Prediction(MTP) 모듈이 통합되었다.
학습은 2단계 파이프라인으로 진행된다. 1단계(Foundational Modality Alignment)에서는 일반적인 이미지-텍스트 쌍과 문서 이해 데이터를 사용하여 기초적인 시각-언어 정렬을 수행한다. 2단계(Perceptual and Knowledge Refinement)에서는 수학, 과학, STEM 도메인의 고밀도 구조화 데이터와 OCR 중심 샘플을 통해 복잡한 멀티모달 태스크 수행 능력을 정교화한다.
수학적 최적화를 위해 Offline Preference Optimization 기법을 도입했다. 시각 태스크에는 DPO(Direct Preference Optimization)를 적용하고, 텍스트 태스크에는 LGROUPER를 사용하여 여러 응답 중 최적의 답변을 선택하도록 학습한다. [보상 점수 r_i와 그룹 평균 mean({r_j})의 차이를 표준편차로 나누어 zi를 계산] → [zi를 0~2 사이의 가중치 Ai로 변환] → [Ai를 로그 확률에 곱해 손실 함수 계산] 과정을 통해 모델의 답변 품질을 높인다.
주요 결과
시각 벤치마크에서 EXAONE 4.5 33B 모델은 훨씬 더 큰 규모의 모델인 Qwen3-VL-235B를 MATHVISION(75.2 vs 74.6)과 WE-MATH(79.1 vs 74.8)에서 앞서는 성과를 보였다. 특히 문서 이해 지표인 CHARXIV(RQ)에서 71.7점을 기록하며 GPT-5 mini(68.6)보다 높은 성능을 입증했다.
언어 성능 측면에서도 LIVECODEBENCH V6에서 81.4점을 기록하며 비교 대상 모델 중 가장 높은 점수를 획득했다. 한국어 특화 벤치마크인 KRETA에서는 91.9점을 기록하여 한국어 문맥 이해와 시각적 질의응답 능력이 글로벌 SOTA 모델들과 대등하거나 우위에 있음을 확인했다.
기술 상세
EXAONE 4.5는 32B Dense 아키텍처를 기반으로 하며, 시각 인코더에는 2D RoPE를, 언어 모델에는 1D RoPE를 사용하여 각 모달리티의 특성을 보존한다. 시각 토큰의 폭발적 증가를 막기 위해 고해상도 입력을 지원하면서도 연산 효율을 위해 GQA를 시각 인코더에 전면 도입한 것이 특징이다.
컨텍스트 확장을 위해 Context Parallelism 기법을 사용하여 256K 시퀀스 처리 시의 메모리 분산과 학습 처리량을 최적화했다. 또한, 강화학습 단계에서는 GRPO(Group Relative Policy Optimization)를 IcePop 설정으로 적용하여 별도의 가치 모델(Value Model) 없이도 효율적인 정책 최적화를 달성했다. 구현 시 MTP 모듈은 추론 시점에 비활성화할 수 있는 유연한 구조를 채택했다.
실무 활용
산업 현장의 복잡한 문서를 자동 분석하고 전문 지식을 기반으로 추론하는 데 최적화되어 있습니다.
- 제조 공정의 실시간 시각 피드 분석을 통한 결함 탐지 및 품질 관리
- 복잡한 파이프라인 도면, 청사진 및 기술 매뉴얼의 자동 규정 준수 체크
- 수천 페이지 분량의 기업 내부 기술 문서를 기반으로 한 장기 컨텍스트 질의응답
- 한국어 및 다국어(영어, 일어, 베트남어 등) 기반의 글로벌 산업 현장 지원 에이전트
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.