핵심 요약
최신 시각 추론 모델들이 간단한 질문에도 불필요하게 긴 추론 과정을 거치며 자원을 낭비하는 '과잉 사고' 문제를 해결한다. 문제의 난이도에 따라 추론의 깊이를 스스로 조절하게 함으로써 정확도는 유지하면서도 운영 비용을 획기적으로 줄일 수 있는 방향을 제시한다.
왜 중요한가
최신 시각 추론 모델들이 간단한 질문에도 불필요하게 긴 추론 과정을 거치며 자원을 낭비하는 '과잉 사고' 문제를 해결한다. 문제의 난이도에 따라 추론의 깊이를 스스로 조절하게 함으로써 정확도는 유지하면서도 운영 비용을 획기적으로 줄일 수 있는 방향을 제시한다.
관련 Figure

35.4%의 인스턴스가 3 이상의 높은 Overthinking Score를 기록하고 있음을 보여주며, 이는 기존 모델들이 필요 이상으로 많은 토큰을 낭비하고 있다는 본 연구의 문제 제기를 뒷받침한다.
VQA 데이터셋에서의 Overthinking Score 분포 차트
핵심 기여
Reasoning Path Redundancy 현상 규명
시각적 질문 답변(VQA) 데이터의 상당수가 복잡한 추론 없이 지각만으로 해결 가능하다는 점을 분석하고, 이를 수치화할 수 있는 Overthinking Score를 제안했다.
AVR(Adaptive Visual Reasoning) 프레임워크 제안
시각적 추론을 지각, 논리 추론, 답변 적용의 세 가지 인지 기능으로 분리하고, 문제에 따라 Direct Answer, Perception-Only, Full Format 중 최적의 형식을 동적으로 선택하는 구조를 설계했다.
FS-GRPO 강화학습 알고리즘 개발
정확도뿐만 아니라 토큰 효율성과 형식의 다양성을 보상 요소로 포함하는 강화학습 기법을 통해 모델이 스스로 효율적인 추론 경로를 선택하도록 학습시켰다.
벤치마크 성능 및 효율성 입증
7개 주요 벤치마크에서 기존 모델 대비 토큰 사용량을 50-90% 절감하면서도 동등하거나 더 높은 정확도를 달성했으며, 특히 지각 집중형 과제에서 80% 이상의 효율 개선을 보였다.
핵심 아이디어 이해하기
기존의 시각 추론 모델은 모든 질문에 대해 동일하게 긴 '생각의 사슬(Chain-of-Thought)'을 생성하도록 훈련되어 왔다. 이는 마치 '1+1'이라는 질문에 대해 숫자의 정의부터 덧셈의 원리까지 장황하게 설명하는 것과 같아 연산 자원을 낭비하고 중간 단계에서 오류가 발생할 확률을 높인다. AVR은 인간이 직관적으로 답할 수 있는 문제와 깊은 고민이 필요한 문제를 구분하듯, AI도 문제의 복잡도를 먼저 파악하게 하는 데서 출발한다.
이 논문은 시각 추론 과정을 '눈으로 보는 것(Perception)'과 '머리로 생각하는 것(Reasoning)'으로 명확히 분리한다. Transformer 기반 모델이 입력된 이미지 임베딩과 텍스트 쿼리를 처리할 때, 모든 레이어에서 복잡한 추론 연산을 수행하는 대신 특수 토큰(, )을 활용해 필요한 인지 단계만 활성화하도록 유도한다. 간단한 사물 인식은 지각 단계에서 바로 답을 내고, 복잡한 수학 문제는 전체 추론 단계를 거치도록 경로를 최적화한다.
결과적으로 모델은 정답을 맞히는 것뿐만 아니라 '얼마나 적은 생각(토큰)으로 정답에 도달했는가'를 함께 평가받으며 학습한다. 이는 Softmax를 통해 확률적으로 다음 토큰을 예측하는 기본 원리에 '효율성'이라는 제약 조건을 보상(Reward)으로 주입함으로써, 모델의 내부 정책이 더 경제적인 추론 경로를 선호하도록 변화시킨 것이다.
관련 Figure

기존 모델은 난이도와 상관없이 긴 추론을 수행하지만, AVR은 단순 작업에는 Direct Answer를, 복잡한 작업에는 Full Format을 선택하여 토큰을 획기적으로 줄임을 보여준다. 특히 Simple Task에서 토큰이 327개에서 15개로 줄어드는 극적인 효율성을 시각화한다.
기존 VRM과 AVR의 과제별 추론 경로 및 토큰 사용량 비교 다이어그램
방법론
AVR 프레임워크는 시각 추론을 세 가지 인지 기능(Visual Perception, Logical Reasoning, Answer Application)으로 분해하고 이를 세 가지 응답 형식으로 구현한다. Full Format은 모든 단계를 거치고, Perception-Only는 추론을 생략하며, Direct Answer는 지각과 추론을 모두 생략하고 정답만 출력한다. 이를 위해 , , 라는 특수 토큰을 도입하여 구조화된 출력을 강제한다.
학습은 2단계 파이프라인으로 진행된다. 1단계 SFT(Supervised Fine-Tuning)에서는 11k개의 데이터를 활용해 모델이 세 가지 형식을 모두 이해하고 생성할 수 있도록 기초 능력을 배양한다. 2단계에서는 본 논문의 핵심인 FS-GRPO(Format-Selection Group Relative Policy Optimization)를 적용한다. GRPO는 기준 모델(Reference Model)과의 KL Divergence를 계산하여 [모델의 현재 정책 → 기준 모델과의 차이 → 업데이트 크기] 순으로 안정적인 학습을 보장한다.
FS-GRPO의 보상 함수 r_i는 r_format(정확도 및 형식 보너스), r_div(형식 다양성), s_L(길이 페널티)의 곱으로 구성된다. f3 > f2 > f1 순의 보너스 값을 설정하여 [짧은 형식 선택 → 더 높은 보너스 합산 → 효율적 경로 선호] 메커니즘을 구현한다. 또한 r_div는 특정 형식으로의 쏠림을 방지하기 위해 [현재 배치의 형식 빈도 계산 → 낮은 빈도 형식에 가중치 부여 → 다양한 전략 탐색] 과정을 거치며, 이는 학습 후반부로 갈수록 감쇠(Decay)되어 최종적으로는 최적의 효율적 경로에 수렴하게 한다.
주요 결과
Qwen3-VL 모델을 기반으로 한 실험에서 AVR은 모든 모델 크기(2B, 4B, 8B)에 걸쳐 획기적인 토큰 절감을 달성했다. OCRBench와 같은 지각 집중형 벤치마크에서는 기존 Thinking 모델 대비 토큰 사용량을 80% 이상 줄이면서도 정확도는 2~4% 향상되는 결과를 보였다. 이는 불필요한 추론 과정에서 발생할 수 있는 중간 단계의 오류를 차단했기 때문으로 분석된다.
MathVista와 같은 고난도 추론 과제에서는 모델이 스스로 Full Format을 선택하는 비율이 약 70%까지 상승하며 정확도를 유지했다. 이는 AVR이 단순히 응답을 짧게 만드는 것이 아니라, 문제의 난이도에 맞춰 지능적으로 자원을 배분하고 있음을 증명한다. 구체적으로 Qwen3-VL-2B 모델의 경우 전체 벤치마크 평균 50~90%의 토큰 감소율을 기록했다.
Ablation Study를 통해 Diversity Reward(r_div)의 중요성도 확인되었다. 이 보상이 없을 경우 모델은 가장 짧은 형식인 Direct Answer로만 수렴하는 '형식 붕괴(Format Collapse)' 현상을 보였으나, 제안된 보상 체계를 통해 과제 특성에 맞는 균형 잡힌 형식 선택 능력을 확보했다. 또한 InternVL3 등 타 모델 제품군에서도 동일한 성능 향상이 확인되어 방법론의 범용성을 입증했다.
관련 Figure

학습이 진행됨에 따라 평균 토큰 수가 약 350개에서 100개 수준으로 꾸준히 감소하는 것을 통해 FS-GRPO가 모델의 효율성을 성공적으로 최적화하고 있음을 증명한다.
강화학습 단계별 평균 응답 토큰 수 및 최대 토큰 수의 변화 그래프
기술 상세
AVR은 시각 추론 모델의 고질적인 문제인 'Reasoning Path Redundancy'를 해결하기 위해 인지적 구조 분해와 강화학습 기반의 동적 선택 메커니즘을 결합했다. 아키텍처 측면에서는 기존의 단일한 CoT 구조를 탈피하여 , , 토큰으로 구분된 모듈형 응답 구조를 채택했다. 이는 모델이 각 단계의 경계를 명확히 인식하게 함으로써 해석 가능성을 높인다.
수학적 기반인 FS-GRPO는 기존 GRPO에 효율성 지향적 보상 설계를 더한 것이다. 보상 함수 ri = sL,i * (rformat,i + rdiv,i)에서 sL,i는 토큰 길이 L을 기준으로 [실제 길이 ntok / 기준 길이 L]의 역수를 취해 길이가 길어질수록 보상을 지수적으로 깎는 역할을 한다. 이를 통해 모델은 정답을 맞히더라도 더 짧은 경로를 찾으려는 강력한 동기를 갖게 된다.
Prior work인 Think-or-Not(TON)이나 ARM2와 비교했을 때, AVR은 이진 선택(생각함/안함)을 넘어 지각 단계를 보존하는 중간 경로(Perception-Only)를 제공한다는 점이 기술적 차별점이다. 실험 데이터 분석 결과, 지각 정보만 텍스트로 제공했을 때 모델이 정답을 맞히는 비율이 높다는 점에 착안하여 이 중간 경로를 설계했으며, 이는 시각적 근거(Visual Grounding)를 유지하면서도 추론 연산을 생략하는 효율적인 대안이 된다.
학습 세부사항으로는 8개의 NVIDIA A6000 GPU를 사용하여 G=8(그룹 크기)의 샘플링을 통해 상대적 이득(Advantage)을 계산했다. KL Divergence 계수를 0.02로 설정하여 정책 업데이트의 안정성을 꾀했으며, Diversity Reward에 코사인 감쇠(Cosine Decay)를 적용해 학습 초기에는 다양한 형식을 탐색하고 후기에는 최적의 효율적 형식에 집중하도록 스케줄링했다.
한계점
모델이 지각 단계() 내부에 교묘하게 추론 과정을 숨겨서 출력하는 '단계 혼합(Stage Mixing)' 현상이 약 4.3%의 사례에서 발견되었다. 이는 완전한 모듈화와 해석 가능성을 저해할 수 있는 요소로, 향후 더 엄격한 형식 제어 기법이 필요함을 시사한다.
실무 활용
AVR은 실시간 응답이 중요하거나 API 호출 비용이 부담되는 멀티모달 AI 서비스에 즉시 적용 가능한 기술이다. 특히 단순 정보 추출부터 복잡한 논리 추론까지 다양한 난이도의 질문이 섞여 들어오는 실제 서비스 환경에서 운영 효율을 극대화할 수 있다.
- 고객 상담 챗봇: 단순 상품 정보 조회(지각)와 복잡한 약관 해석(추론)을 구분하여 응답 속도 및 비용 최적화
- 모바일 시각 보조 앱: 제한된 연산 자원 환경에서 간단한 사물 인식은 즉각 답변하고 복잡한 상황 설명에만 자원 집중
- 대규모 이미지 데이터셋 라벨링: OCR 등 단순 작업의 토큰 소모를 줄여 대량 데이터 처리 비용 절감
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.