TL;DR
시각-언어 모델의 시각 추론에서 외부 도구 실행과 잠재 공간 추론 사이의 한계를 동시에 극복하고자 한다. ATLAS는 시각 연산을 단일 discrete functional token으로 표현해 원래의 autoregressive 파이프라인과의 호환성을 유지하면서도 픽셀 단위의 중간 생성 없이 효율적으로 추론한다. Two-stage 학습과 LA-GRPO 도입으로 학습 신호를 강화하고, BLINK/WeMath를 포함한 벤치마크에서 성능이 향상되며 추론 지연과 메모리 사용이 감소한다.
왜 중요한가
시각-언어 모델의 시각 추론에서 외부 도구 실행과 잠재 공간 추론 사이의 한계를 동시에 극복하고자 한다. ATLAS는 시각 연산을 단일 discrete functional token으로 표현해 원래의 autoregressive 파이프라인과의 호환성을 유지하면서도 픽셀 단위의 중간 생성 없이 효율적으로 추론한다. Two-stage 학습과 LA-GRPO 도입으로 학습 신호를 강화하고, BLINK/WeMath를 포함한 벤치마크에서 성능이 향상되며 추론 지연과 메모리 사용이 감소한다.
핵심 기여
Discrete functional tokens 도입
토큰화 어휘에 5개의 functional tokens(<|Manip|>, <|Shape|>, <|Line|>, <|Arrow|>, <|Text|>)를 추가해 시각 연산을 내부화하고 외부 도구 호출 없이 순차적 next-token 예측으로 시각 추론을 수행한다.
LA-GRPO 도입
gradient dilution 문제를 해결하기 위해 Vfunc 토큰에 토큰-레벨 보조 손실을 추가하는 Latent-Anchored GRPO를 제안한다. 이로써 기능 토큰의 업데이트를 강화하고 안정적 사용을 유도한다.
ATLAS-178K 데이터셋 및 2단계 학습
ATLAS-178K를 SFT 데이터로 사용하고, V-Perception-40K를 보조로 활용하며, SFT 이후 GRPO 기반 RL로 시각 추론 성능을 향상시킨다.
실험에서의 성능 및 효율성 향상
BLINK 평균 51.3%, WeMath 45.0%를 달성하는 등 벤치마크에서 우수한 성능을 보이고, LA-GRPO 도입으로 추론 속도 3.80s, 메모리 1.43GB로 감소하여 효율이 개선된다.
AR 파이프라인과의 완전한 호환성
모델은 모든 추론을 단일 텍스트 토큰 시퀀스 내에서 수행하므로 기존 autoregressive 학습 및 추론 파이프라인(SFT/RL)과의 호환성을 유지한다.
핵심 아이디어 이해하기
단락 1: 시각 추론에서 중간 시각 콘텐츠를 픽셀 단위로 생성하는 비용과 복잡성을 지적하고, 대안으로서 외부 코드 실행(Agentic)과 잠재 임베딩(Latent) 방식의 한계를 요약한다. 단락 2: ATLAS의 핵심 아이디어는 시각 연산을 표준 어휘의 discrete tokens로 내부화하고, next-token 예측으로 토큰을 생성하는 단일 파이프라인에 남겨두는 것이다. 단락 3: LA-GRPO는 토큰-레벨 보조 손실을 추가해 sparse한 기능 토큰의 학습 신호를 강화하고, 학습 안정성과 일반화를 높인다. 단락 4: 이 접근은 SFT/RL과의 호환성과 확장성 면에서 이점이 있어, 벤치마크에서 성능 향상과 추론 효율성 개선을 함께 달성한다.
방법론
단락 1: 모델 아키텍처는 V = Vtext ∪ Vspec ∪ Vfunc로 구성되며, Vfunc에는 five functional tokens이 포함된다. 이를 통해 시각 연산이 내부화된 시퀀스를 만들고, 외부 모듈 호출이나 이미지 재생성 없이 reasoning을 수행한다. 단락 2: Lfunc = −∑yt∈Vfunc log pθ(yt | x, y<t)로 토큰-수준 CE 손실을 적용한다. 단락 3: 두 단계 학습: Stage 1 SFT에서 ATLAS-178K를 이용해 기능 토큰의 호출을 학습하고, Stage 2 RL에서 GRPO를 사용해 보상을 최적화한다. 단락 4: LA-GRPO의 수식은 LLA-GRPO = LGRPO + α (1/|Mfunc|) ∑t∈Mfunc Lt_token으로, Mfunc는 각 롤아웃에서 기능 토큰의 위치를 모은다. 단락 5: 보상 구성은 racc, rfunc, rfmt, plen, pspam으로 이루어지며, 형식 준수와 길이 제약, 토큰 남용 방지를 포함한다.
관련 Figure

Figure 1은 ATLAS가 어떻게 agentic/latent/통합 추론을 단일 토큰으로 연결하는지 개념적으로 보여준다. methodology(anchor_key: methodology)에 직접 연결되며 ATLAS의 핵심 아이디어를 시각적으로 보강한다.
ATLAS의 패러다임 비교 다이어그램으로 세 가지 시각 추론 방식과 ATLAS의 차별점을 시각화

ATLAS가 어떻게 텍스트 어휘 내에서 Vfunc 토큰으로 시각 연산을 수행하는지 보여준다. unified sequence modeling의 흐름을 설명하는데 직접적으로 기여한다.
Figure 2 ATLAS의 전체 파이프라인

LA-GRPO의 토큰-레벨 보조 손실이 Vfunc 토큰에 집중되도록 하는 아이디어를 시각화한다. gradient 업데이트가 기능 토큰에 집중되도록 설계됨을 보여준다.
Figure 3 Latent-Anchored GRPO 구성도
주요 결과
주요 벤치마크에서 ATLAS 계열은 기존 VLM 대비 향상을 보인다. LA-GRPO의 경우 WeMath 45.0%, BLINK 51.3%의 평균 점수를 달성했고, ATLASSFT는 BLINK 46.0%의 평균을 달성한다. 표 4의 효율성 분석에 따르면 ATLAS는 All Tokens 99.85, Latency 3.80s, Peak Mem. 1.43GB로 V-Thinker 대비 큰 개선을 보이며, 토큰 구성에서 Func. Tokens 비중을 낮추면서도 정확도를 높인다.
관련 Figure

질적 예시에서 <|Shape|>, <|Line|>, <|Text|> 등의 토큰이 시각 근거를 지시하는 위치를 보여준다. 결과 해석의 구체화를 돕고 damage를 확인하는데 유용하다.
Figure 4 ATLAS의 질적 예시

추가 질적 예시에서도 기능 토큰의 상황 변화에 따른 호출 위치를 보여주며, 다각적 추론 경로의 형성에 기여한다.
Figure 5 ATLAS의 추가 질적 예시

각 토큰이 인접 이미지 토큰과의 주의 집중 영역을 시각화하여 기능 토큰이 유의미한 시각 정보를 포착한다는 것을 보여준다. 연구 결과의 실질적 기여를 보강한다.
Figure 6 Attention Analysis of Functional Tokens
기술 상세
아키텍처: V = Vtext ∪ Vspec ∪ Vfunc, Vfunc = {<|Manip|>, <|Shape|>, <|Line|>, <|Arrow|>, <|Text|}. Lfunc = −∑ log pθ(yt | x, y<t) for yt ∈ Vfunc. ATLAS-178K는 138K 샘플의 SFT 데이터로 구성되며, 40개 이상의 시각 추론 태스크를 커버한다. V-Perception-40K는 보조 데이터로 포함된다. Stage 2 RL은 GRPO를 적용하고, 보상 구성은 racc, rfunc, rfmt, plen, pspam으로 정의된다. LA-GRPO의 토큰-레벨 손실은 Ltoken으로 각 롤아웃에서 기능 토큰이 등장하는 위치에만 적용된다.
실무 활용
ATLAS는 단일 토큰 기반 시각 추론으로 파이프라인 비용을 감소시키고 AR 기반 학습의 효율성을 높인다.
- 대규모 비주얼 추론 시스템에서 픽셀 생성 없이 시각적 증거를 활용하는 질의응답
- 멀티모달 대화 시스템의 시각-추론 응답 속도 향상
- 교육용 도구에서 도형/그래프 해석 자동화
- 로봇 비전에서 시각 추론과 제어 의사결정의 고도화
코드 공개 여부: 비공개
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.