OpenVLThinkerV2: 다중 도메인 시각 작업을 위한 범용 멀티모달 추론 모델

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

멀티모달 모델 학습 시 시각적 인식과 논리적 추론 사이의 균형을 맞추는 것은 매우 어렵다. 이 논문은 보상 분포를 정규화하는 G2RPO 기법을 통해 다양한 시각 작업에서 안정적인 학습을 가능하게 하며, 오픈소스 모델이 상용 모델인 GPT-4o를 능가하는 추론 성능을 낼 수 있음을 증명했다.

왜 중요한가

멀티모달 모델 학습 시 시각적 인식과 논리적 추론 사이의 균형을 맞추는 것은 매우 어렵다. 이 논문은 보상 분포를 정규화하는 G2RPO 기법을 통해 다양한 시각 작업에서 안정적인 학습을 가능하게 하며, 오픈소스 모델이 상용 모델인 GPT-4o를 능가하는 추론 성능을 낼 수 있음을 증명했다.

핵심 기여

Gaussian GRPO (G2RPO) 제안

기존의 선형 스케일링 방식 대신 1D Optimal Transport를 활용하여 보상 분포를 표준 정규 분포 N(0, 1)로 강제 매핑하는 새로운 강화학습 목적 함수를 도입했다. 이를 통해 작업 간 그래디언트 불균형을 해소하고 이상치 보상에 대한 강건성을 확보했다.

작업 수준의 응답 길이 및 엔트로피 셰이핑

복잡한 추론 작업에는 긴 사고 사슬을 유도하고, 단순 인식 작업에는 간결한 출력을 강제하는 길이 조절 메커니즘과 탐색 범위를 제한하는 엔트로피 조절 기법을 적용하여 학습 안정성을 높였다.

OpenVLThinkerV2 모델 개발 및 SOTA 달성

Qwen3-VL-Instruct-8B를 기반으로 18개 벤치마크에서 평가를 진행했으며, MMMU(71.6%), MathVista(79.5%) 등 주요 지표에서 GPT-4o 및 Gemini 2.5 Pro를 포함한 선도적 모델들을 상회하는 성능을 기록했다.

핵심 아이디어 이해하기

기존의 강화학습 기반 멀티모달 모델 학습은 수학 문제 풀이처럼 정답이 명확한 '희소 보상' 작업과 물체 검출처럼 연속적인 점수가 나오는 '밀집 보상' 작업을 동시에 최적화할 때 큰 어려움을 겪는다. GRPO와 같은 기존 방식은 보상의 평균과 표준편차만 맞추는 선형 정규화를 사용하는데, 이는 보상 분포의 모양이 뒤틀려 있거나 특정 데이터가 너무 높은 점수를 받는 '이상치' 문제에 취약하여 학습 그래디언트가 폭발하거나 특정 작업에만 편향되는 결과를 초래한다.

이 논문은 보상 분포의 형태에 상관없이 무조건 '표준 정규 분포(종 모양)'로 변환하는 Gaussian GRPO(G2RPO)를 해결책으로 제시한다. 이는 데이터의 절대적인 점수 대신 상대적인 순위(Rank)를 기반으로 정규 분포의 해당 위치 값을 할당하는 방식이다. 결과적으로 모든 작업이 동일한 통계적 특성을 가진 보상 신호를 모델에 전달하게 되어, 다양한 시각 작업을 동시에 학습해도 특정 작업이 학습 과정을 지배하지 않도록 보장한다.

또한, 모델이 너무 짧게 대답하여 사고 과정을 생략하거나(Entropy Collapse), 너무 횡설수설하며 무의미한 탐색을 반복하는(Entropy Explosion) 현상을 방지하기 위해 작업별로 적절한 응답 길이와 엔트로피 범위를 설정했다. 이러한 구조적 제어는 모델이 시각적 정보를 정확히 인식하면서도 단계적인 논리 추론을 수행할 수 있는 최적의 지점을 찾게 만든다.

방법론

G2RPO는 1D Optimal Transport 이론을 활용하여 경험적 보상 분포를 표준 정규 분포 N(0, 1)로 매핑한다. 구체적으로는 각 보상값 Ri에 대해 전체 샘플 수 N 내에서의 순위를 계산하여 pi = (rank(Ri) - 0.5) / N 이라는 균등 확률값을 얻는다. 이후 표준 정규 분포의 역 누적 분포 함수(Inverse CDF)인 Φ⁻¹를 pi에 적용하여 최종 Advantage 값을 산출한다. 이 과정은 이상치 보상을 수학적으로 억제하고 양수와 음수 보상의 업데이트를 대칭적으로 만들어 학습 안정성을 극대화한다.

Task-Level Response Length Shaping은 사다리꼴 형태의 보상 봉투(Envelope)를 정의한다. 모델의 응답 길이 |y|가 설정된 최적 범위 [Llow, Lhigh]에 있으면 보상 1을 주고, 너무 짧거나 길면 선형적으로 감점하여 0에 수렴하게 만든다. 이는 복잡한 수학 문제는 길게 생각하게 하고, OCR이나 Grounding 같은 작업은 불필요한 설명 없이 정답만 말하도록 유도하는 역할을 한다.

Task-Level Entropy Shaping은 모델의 탐색 정도를 나타내는 엔트로피 Htask가 특정 구간 [Hmin, Hmax]를 벗어날 때만 페널티를 부여하는 정규화 손실 함수 Lent_reg를 사용한다. Htask가 Hmax보다 크면 불필요한 무작위 토큰 생성을 억제하고, Hmin보다 작으면 모델이 특정 답변에만 매몰되지 않고 더 다양한 가능성을 탐색하도록 강제한다.

주요 결과

OpenVLThinkerV2는 18개 벤치마크 전반에서 압도적인 성능 향상을 보였다. 일반 시각 추론인 MMMU에서 71.6%를 기록하며 베이스라인인 Qwen3-VL(60.2%) 대비 11.4%p 상승했으며, MathVista에서는 79.5%로 GPT-4o(63.8%)를 크게 앞질렀다. 특히 문서 이해(OCRBench 911점)와 시각적 접지(RefCOCO 93.4%) 작업에서도 전문 모델인 DeepEyesV2나 Grounding DINO를 능가하는 범용성을 입증했다.

Ablation Study 결과, G2RPO 단독 적용 시에도 모든 지표에서 GRPO 대비 유의미한 성능 향상이 있었으며, 여기에 길이 및 엔트로피 셰이핑을 결합했을 때 시너지 효과가 발생하여 최종적인 SOTA 성능에 도달했다. 특히 수학 및 차트 추론처럼 사고 과정이 중요한 작업에서 셰이핑 기법의 기여도가 높게 나타났다.

기술 상세

OpenVLThinkerV2는 Qwen3-VL-Instruct-8B를 백본으로 사용하며, AWS Trainium(Trn1.32xlarge) 환경에서 학습되었다. 핵심 아키텍처의 변화보다는 RL post-training 단계에서의 목적 함수 혁신에 집중했다. G2RPO는 보상 분포의 고차 모멘트를 보존하는 선형 변환의 한계를 극복하기 위해 비선형 매핑을 도입했으며, 이는 수학적으로 모든 작업의 Advantage 분포가 동일한 1차 및 2차 통계치를 갖도록 강제하여 다중 작업 학습 시의 그래디언트 충돌을 방지한다.

학습 과정에서는 KL divergence 정규화를 비활성화하는 대신 동적 데이터 필터링을 적용하여, 모든 샘플이 정답이거나 오답인 경우 그래디언트 신호가 약해지는 문제를 해결했다. 또한 AdamW 옵티마이저와 2e-6의 낮은 학습률을 사용하여 단일 에폭 내에서 안정적인 수렴을 유도했다. 엔트로피 및 길이 셰이핑의 하이퍼파라미터는 작업 유형(인식 중심 vs 추론 중심)에 따라 경험적으로 설정되어 모델의 행동 양식을 정교하게 제어한다.

한계점

현재 구현은 길이 및 엔트로피 셰이핑을 위해 작업별 하이퍼파라미터를 수동으로 설정해야 하며, 향후 이러한 경계값을 자동으로 탐색하고 최적화하는 연구가 필요하다.

실무 활용

OpenVLThinkerV2는 오픈소스 기반이면서도 상용 모델 수준의 시각 추론 능력을 갖추고 있어, 고성능 멀티모달 에이전트 개발에 즉시 활용 가능하다.

복잡한 수식이나 도표가 포함된 과학/수학 문서의 자동 분석 및 풀이
고정밀 OCR 및 문서 구조 이해가 필요한 엔터프라이즈 문서 자동화 시스템
이미지 내 특정 객체의 위치를 정확히 파악하고 논리적으로 설명해야 하는 시각적 질의응답 서비스

코드 공개 여부: 공개

코드 저장소 보기

키워드

GRPO(그룹 상대 정책 최적화)RL(강화학습)MLLM(멀티모달 대형 언어 모델)Optimal Transport(최적 운송)Visual Reasoning(시각적 추론)