ATLAS: 에이전트형 및 잠재적 시각 추론을 하나의 단어로 통합하는 프레임워크

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

시각-언어 모델의 시각 추론에서 외부 도구 실행과 잠재 공간 추론 사이의 한계를 동시에 극복하고자 한다. ATLAS는 시각 연산을 단일 discrete functional token으로 표현해 원래의 autoregressive 파이프라인과의 호환성을 유지하면서도 픽셀 단위의 중간 생성 없이 효율적으로 추론한다. Two-stage 학습과 LA-GRPO 도입으로 학습 신호를 강화하고, BLINK/WeMath를 포함한 벤치마크에서 성능이 향상되며 추론 지연과 메모리 사용이 감소한다.

왜 중요한가

시각-언어 모델의 시각 추론에서 외부 도구 실행과 잠재 공간 추론 사이의 한계를 동시에 극복하고자 한다. ATLAS는 시각 연산을 단일 discrete functional token으로 표현해 원래의 autoregressive 파이프라인과의 호환성을 유지하면서도 픽셀 단위의 중간 생성 없이 효율적으로 추론한다. Two-stage 학습과 LA-GRPO 도입으로 학습 신호를 강화하고, BLINK/WeMath를 포함한 벤치마크에서 성능이 향상되며 추론 지연과 메모리 사용이 감소한다.

핵심 기여

Discrete functional tokens 도입

LA-GRPO 도입

gradient dilution 문제를 해결하기 위해 Vfunc 토큰에 토큰-레벨 보조 손실을 추가하는 Latent-Anchored GRPO를 제안한다. 이로써 기능 토큰의 업데이트를 강화하고 안정적 사용을 유도한다.

ATLAS-178K 데이터셋 및 2단계 학습

ATLAS-178K를 SFT 데이터로 사용하고, V-Perception-40K를 보조로 활용하며, SFT 이후 GRPO 기반 RL로 시각 추론 성능을 향상시킨다.

실험에서의 성능 및 효율성 향상

BLINK 평균 51.3%, WeMath 45.0%를 달성하는 등 벤치마크에서 우수한 성능을 보이고, LA-GRPO 도입으로 추론 속도 3.80s, 메모리 1.43GB로 감소하여 효율이 개선된다.

AR 파이프라인과의 완전한 호환성

모델은 모든 추론을 단일 텍스트 토큰 시퀀스 내에서 수행하므로 기존 autoregressive 학습 및 추론 파이프라인(SFT/RL)과의 호환성을 유지한다.

핵심 아이디어 이해하기

단락 1: 시각 추론에서 중간 시각 콘텐츠를 픽셀 단위로 생성하는 비용과 복잡성을 지적하고, 대안으로서 외부 코드 실행(Agentic)과 잠재 임베딩(Latent) 방식의 한계를 요약한다. 단락 2: ATLAS의 핵심 아이디어는 시각 연산을 표준 어휘의 discrete tokens로 내부화하고, next-token 예측으로 토큰을 생성하는 단일 파이프라인에 남겨두는 것이다. 단락 3: LA-GRPO는 토큰-레벨 보조 손실을 추가해 sparse한 기능 토큰의 학습 신호를 강화하고, 학습 안정성과 일반화를 높인다. 단락 4: 이 접근은 SFT/RL과의 호환성과 확장성 면에서 이점이 있어, 벤치마크에서 성능 향상과 추론 효율성 개선을 함께 달성한다.

방법론

단락 1: 모델 아키텍처는 V = Vtext ∪ Vspec ∪ Vfunc로 구성되며, Vfunc에는 five functional tokens이 포함된다. 이를 통해 시각 연산이 내부화된 시퀀스를 만들고, 외부 모듈 호출이나 이미지 재생성 없이 reasoning을 수행한다. 단락 2: Lfunc = −∑yt∈Vfunc log pθ(yt | x, y<t)로 토큰-수준 CE 손실을 적용한다. 단락 3: 두 단계 학습: Stage 1 SFT에서 ATLAS-178K를 이용해 기능 토큰의 호출을 학습하고, Stage 2 RL에서 GRPO를 사용해 보상을 최적화한다. 단락 4: LA-GRPO의 수식은 LLA-GRPO = LGRPO + α (1/|Mfunc|) ∑t∈Mfunc Lt_token으로, Mfunc는 각 롤아웃에서 기능 토큰의 위치를 모은다. 단락 5: 보상 구성은 racc, rfunc, rfmt, plen, pspam으로 이루어지며, 형식 준수와 길이 제약, 토큰 남용 방지를 포함한다.

주요 결과

주요 벤치마크에서 ATLAS 계열은 기존 VLM 대비 향상을 보인다. LA-GRPO의 경우 WeMath 45.0%, BLINK 51.3%의 평균 점수를 달성했고, ATLASSFT는 BLINK 46.0%의 평균을 달성한다. 표 4의 효율성 분석에 따르면 ATLAS는 All Tokens 99.85, Latency 3.80s, Peak Mem. 1.43GB로 V-Thinker 대비 큰 개선을 보이며, 토큰 구성에서 Func. Tokens 비중을 낮추면서도 정확도를 높인다.

기술 상세

아키텍처: V = Vtext ∪ Vspec ∪ Vfunc, Vfunc = {<|Manip|>, <|Shape|>, <|Line|>, <|Arrow|>, <|Text|}. Lfunc = −∑ log pθ(yt | x, y<t) for yt ∈ Vfunc. ATLAS-178K는 138K 샘플의 SFT 데이터로 구성되며, 40개 이상의 시각 추론 태스크를 커버한다. V-Perception-40K는 보조 데이터로 포함된다. Stage 2 RL은 GRPO를 적용하고, 보상 구성은 racc, rfunc, rfmt, plen, pspam으로 정의된다. LA-GRPO의 토큰-레벨 손실은 Ltoken으로 각 롤아웃에서 기능 토큰이 등장하는 위치에만 적용된다.

실무 활용

ATLAS는 단일 토큰 기반 시각 추론으로 파이프라인 비용을 감소시키고 AR 기반 학습의 효율성을 높인다.

대규모 비주얼 추론 시스템에서 픽셀 생성 없이 시각적 증거를 활용하는 질의응답
멀티모달 대화 시스템의 시각-추론 응답 속도 향상
교육용 도구에서 도형/그래프 해석 자동화
로봇 비전에서 시각 추론과 제어 의사결정의 고도화

코드 공개 여부: 비공개

키워드

visual reasoning(시각 추론)functional tokens(함수 토큰)agentic-visual reasoning(에이전트형 시각 추론)latent visual reasoning(잠재 시각 추론)next-token prediction(다음 토큰 예측)scalable SFT(확장 가능한 SFT)Latent-Anchored GRPO(LA-GRPO)auxiliary objective(보조 목적)gradient updates(그래디언트 업데이트)