Vero: 일반적 시각 추론을 위한 공개 강화학습 레시피

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

그동안 고성능 시각-언어 모델의 강화학습(RL) 과정은 비공개 데이터와 독점 기술에 가려져 있었습니다. 이 논문은 60만 개의 공개 데이터를 활용한 학습 레시피를 전면 공개하여, 누구나 SOTA급 시각 추론 모델을 재현하고 연구할 수 있는 길을 열었습니다.

왜 중요한가

핵심 기여

Vero-600K 데이터셋 구축

59개의 데이터셋에서 추출한 60만 개의 샘플을 6가지 주요 시각 추론 카테고리(STEM, 공간 및 행동, 차트 및 OCR 등)로 분류하여 구축했다.

Task-Routed Reward 시스템 설계

정답 형식이 제각각인 이질적인 작업들에 대해 문자열 매칭, 수치 검증, LLM 판정 등 작업 특성에 맞는 보상 함수를 자동으로 배정하는 시스템을 도입했다.

VeroEval 벤치마크 제안

모델의 광범위한 시각 추론 능력을 평가하기 위해 6개 카테고리에 걸친 30개의 도전적인 벤치마크 세트를 구성했다.

데이터 다양성의 중요성 입증

특정 분야의 데이터만 학습할 경우 다른 분야로의 성능 전이가 어렵다는 점을 확인했으며, 균형 잡힌 데이터 혼합이 강력한 RL 스케일링의 핵심임을 밝혔다.

핵심 아이디어 이해하기

시각-언어 모델(VLM)이 복잡한 차트를 해석하거나 과학 문제를 풀 때, 단순히 정답을 맞히는 것을 넘어 '사고 과정(Chain-of-Thought)'을 거치게 하는 것이 핵심이다. 기존에는 이를 위해 사람이 직접 작성한 고품질의 사고 과정 데이터를 대량으로 학습(SFT)시켜야 했으나, 이는 비용이 많이 들고 확장이 어렵다는 한계가 있었다.

이 논문은 모델이 스스로 생성한 결과물에 대해 정답 여부만을 피드백으로 주는 강화학습(RL) 방식을 채택했다. 특히 Group Relative Policy Optimization(GRPO) 알고리즘을 활용하여, 모델이 여러 답변을 생성하게 하고 그중 상대적으로 더 나은 답변(정답에 가깝고 형식이 올바른 답변)을 선택하도록 유도함으로써 스스로 사고하는 법을 배우게 한다.

결과적으로 모델은 별도의 독점적인 사고 과정 데이터 없이도, 공개된 정답 데이터와 잘 설계된 보상 체계만으로 복잡한 시각적 문제를 단계별로 추론하여 해결하는 능력을 갖추게 된다. 이는 데이터의 양보다 '다양성'과 '보상 설계'가 모델의 지능을 높이는 데 더 결정적임을 시사한다.

방법론

전체적인 접근 방식은 단일 단계 강화학습(Single-stage RL)을 통해 기존 VLM의 추론 능력을 극대화하는 것이다. 먼저 250개 이상의 후보 데이터셋에서 휴리스틱 및 LLM 기반 필터링을 거쳐 59개 데이터셋, 60만 개의 고품질 샘플을 선별했다. 이 데이터들은 STEM, Spatial & Action, Knowledge & Recognition, Chart & OCR, Grounding, Captioning & Instruction Following의 6개 카테고리로 균등하게 혼합된다.

핵심 메커니즘은 GSPO(Group Relative Policy Optimization) 알고리즘이다. 하나의 질문에 대해 G개의 답변(rollout)을 생성하고, 각 답변의 로그 확률 차이인 Δi = (1/|yi|) Σ (log πθ - log πθold)를 계산한다. [G개의 답변 확률 분포를 입력으로] → [이전 모델 대비 확률 변화량의 평균을 계산하여] → [각 답변의 상대적 우위를 수치화하고] → [이 값이 높은 답변의 생성 확률을 높이는 방향으로 가중치를 갱신한다.]

보상 체계는 Task-Routed Reward 방식을 사용한다. 답변의 정확도(Racc), 형식 준수 여부(Rfmt), 그리고 너무 긴 답변에 대한 페널티(Roverlong)를 합산하여 최종 보상을 결정한다. 정확도 계산 시에는 작업 유형에 따라 String match, Numeric(MATH-VERIFY 활용), Grounding(IoU 계산), LLM-as-judge 등 10가지 맞춤형 함수를 적용한다.

주요 결과

Vero-Qwen3T-8B 모델은 VeroEval의 30개 벤치마크 중 23개에서 독점 데이터를 사용한 Qwen3-VL-8B-Thinking 모델의 성능을 앞질렀다. 특히 Grounding, Counting & Search 카테고리에서 +8.6점, Chart & OCR에서 +4.2점의 유의미한 성능 향상을 기록했다. 전체 평균 점수는 66.0점으로, 동일 파라미터 체급의 공개 모델 중 최고 수준을 달성했다.

Ablation study 결과, 데이터 필터링 과정이 성능 향상에 결정적인 역할을 했음이 확인됐다. 질문 필터링을 통해 모호한 샘플을 제거했을 때 Spatial & Action 분야에서 +1.9점의 향상이 있었으며, 답변 정규화를 통해 Knowledge & Recognition 분야에서 +2.1점의 성능 개선이 나타났다. 또한, 6개 카테고리를 균등한 비율(Equal ratios)로 혼합하여 학습했을 때 가장 높은 평균 성능(+5.8점)을 보였다.

학습 곡선 분석에 따르면, Vero-600K 데이터셋은 기존의 공개 RL 데이터셋들(ViRL-39k, OpenMMReasoner-74k 등)보다 모든 카테고리에서 일관되게 높은 성능을 유지하며 학습이 진행되었다. 특히 STEM 분야를 제외한 5개 카테고리에서 학습 초기부터 종료 시점까지 압도적인 우위를 점했다.

기술 상세

Vero의 아키텍처는 Qwen2.5-VL-7B-Instruct 및 Qwen3-VL-8B-Instruct 등을 베이스 모델로 사용하며, 별도의 추가 파라미터 없이 RL을 통해 추론 능력을 최적화한다. 학습 시에는 VeRL 프레임워크와 FSDP2 전략을 활용하여 8개의 GPU에서 2,000 스텝 동안 학습을 진행한다.

수학적 기반인 GSPO는 GRPO의 독립적인 토큰별 중요도 비율을 시퀀스 레벨 비율로 대체하여 학습 안정성을 높였다. si,t(θ) = exp(sg(Δi) + log πθ(yi,t) - sg(log πθ(yi,t))) 식을 통해 [시퀀스 전체의 평균적인 성능 향상도를 입력으로] → [개별 토큰의 로그 확률 변화와 결합하여] → [토큰 단위의 중요도 비율을 산출하고] → [이를 통해 정책을 업데이트한다.] 이 방식은 탐색 능력을 보존하면서도 급격한 정책 붕괴를 방지한다.

연구팀은 시각적 사고 과정(Visual CoT)의 특성을 분석하기 위해 34가지 고수준 인지 행동을 정의하고 자동 주석 시스템을 구축했다. 분석 결과, STEM 작업은 '역추적(Backtracking)' 행동을 유도하는 반면, Grounding 작업은 내성적 행동을 억제하고 '직접적 시각 탐색'에 집중하는 등 작업별로 고유한 인지 프로필이 형성됨을 발견했다.

한계점

현재의 데이터 혼합에는 비디오나 다회차 대화(multi-turn) 작업이 포함되어 있지 않다. 또한 행동 분석이 기술적(descriptive) 수준에 머물러 있어, 특정 인지 행동이 정확도 향상에 기여하는 구체적인 인과 메커니즘은 아직 완전히 규명되지 않았다. 주로 7B-9B 규모의 소형 모델에 집중되어 있어 더 큰 모델에서의 확장성은 추가 연구가 필요하다.

실무 활용

공개된 데이터와 레시피만으로 고성능 시각 추론 모델을 구축할 수 있음을 증명하여, 기업이나 연구소에서 자체적인 특화 VLM을 개발할 때 직접적인 가이드라인으로 활용 가능하다.

복잡한 차트 및 인포그래픽의 자동 해석 및 데이터 추출 시스템 구축
로봇의 시각적 환경 이해 및 공간 추론 기반의 행동 계획 수립
수학 및 과학 도표를 포함한 교육용 AI 튜터링 서비스 개발
이미지 내 객체의 정밀한 위치 파악 및 개수 산정이 필요한 보안/관제 시스템

코드 공개 여부: 공개

코드 저장소 보기

키워드

VLM(시각-언어 모델)RL(강화학습)Visual Reasoning(시각적 추론)GRPO(그룹 상대 정책 최적화)CoT(사고의 사슬)Open-source(오픈 소스)