멀티모달 Chain-of-Thought를 위한 토큰 수준 정책 최적화의 재고

기존 멀티모달 모델 학습은 전체 답변의 정답 여부만 따지는 거친 방식을 사용해, 중간 추론 단계에서 시각 정보를 얼마나 잘 활용했는지 구분하지 못했다. 이 논문은 각 토큰이 이미지와 얼마나 관련 있는지와 얼마나 창의적인 추론이 필요한지를 계산해 학습 효율을 극대화하는 새로운 강화학습 기법을 제시한다.

왜 중요한가

핵심 기여

시각적 근거와 탐색의 상호보완적 역할 규명

성공적인 멀티모달 추론이 시각적으로 정렬된 토큰(Perception)과 높은 엔트로피를 가진 탐색적 토큰(Exploration)의 결합으로 이루어짐을 토큰 단위 분석으로 증명했다.

PEPO(Perception-Exploration Policy Optimization) 프레임워크 제안

별도의 추가 감독이나 보조 네트워크 없이, 은닉 상태 유사도와 토큰 엔트로피를 결합해 토큰별 가중치를 동적으로 조절하는 정책 최적화 기법을 개발했다.

범용적인 강화학습 프레임워크와의 높은 통합성

GRPO 및 DAPO와 같은 기존 강화학습 구조에 매끄럽게 통합되며, 계산 오버헤드를 1% 미만으로 유지하면서도 다양한 벤치마크에서 성능 향상을 달성했다.

핵심 아이디어 이해하기

기존 LVLM 강화학습은 답변 전체에 동일한 보상을 부여하는 시퀀스 단위 최적화를 수행한다. 하지만 추론 과정(CoT)에서 어떤 토큰은 이미지의 특정 부분을 정확히 묘사해야 하고, 어떤 토큰은 논리적 비약을 메우기 위한 탐색적 사고를 담당한다. 모든 토큰을 똑같이 취급하면 모델이 시각 정보와 텍스트 논리를 정교하게 연결하는 법을 배우기 어렵다.

PEPO는 시각적 유사도(Visual Similarity)와 토큰 엔트로피(Token Entropy)라는 두 가지 지표를 닻(Anchor)으로 삼는다. 시각적 유사도는 모델의 내부 은닉 상태(Hidden State)가 이미지 토큰과 얼마나 닮았는지를 측정해 시각적 근거를 확인한다. 엔트로피는 모델이 다음 단어를 선택할 때 느끼는 불확실성을 측정해, 논리적 판단이 필요한 핵심 지점을 식별한다.

이 두 신호를 Smooth Gating 메커니즘으로 결합하여 각 토큰의 중요도(Advantage)를 재분배한다. 시각적으로 중요한 단어나 논리적 전환점인 단어에 더 큰 학습 가중치를 부여함으로써, 모델이 단순히 정답을 맞히는 것을 넘어 올바른 시각적 근거에 기반한 논리적 추론 경로를 구축하도록 유도한다.

방법론

모델의 각 레이어에서 응답 토큰의 은닉 상태 h와 이미지 토큰의 은닉 상태 v 사이의 코사인 유사도를 계산하여 평균을 낸다. [h와 v를 입력으로] → [코사인 유사도 연산을 수행해] → [0에서 1 사이의 VS 점수를 얻고] → [이 값이 높을수록 해당 토큰이 시각 정보에 강하게 의존함을 의미한다].

모델 출력 로짓에서 토큰별 엔트로피 H를 계산하여 탐색적 가치가 높은 지점을 찾는다. [확률 분포 p를 입력으로] → [-p log p의 합을 계산해] → [엔트로피 값을 얻고] → [이 값이 높을수록 모델이 여러 추론 경로를 고민하는 중요한 결정 지점임을 나타낸다].

정규화된 시각 점수와 탐색 점수를 tanh 활성화 함수 기반의 게이트로 결합하여 최종 토큰 가중치 w를 생성한다. 이 가중치를 기존 GRPO의 시퀀스 단위 Advantage A에 곱하여 토큰별 Advantage를 산출하며, 학습이 진행됨에 따라 토큰 단위 세밀한 조정을 강화한다.

주요 결과

Qwen2.5-VL-3B 모델 기준 Geometry3K에서 GRPO 대비 +3.67점, InternVL3-2B 모델 기준 +3.51점의 성능 향상을 기록했다. MathVista, MathVerse 등 외부 벤치마크에서도 일관된 개선을 보여 범용적인 추론 능력이 강화되었음을 확인했다.

RefCOCO 데이터셋에서 IoU@50 기준 +0.86의 향상을 보였으며, 특히 도메인 전이가 발생한 LISA-Grounding 환경에서 더 큰 폭의 개선을 달성했다. PuzzleVQA와 같은 복잡한 시각 퍼즐 작업에서도 기존 강화학습 기법들보다 높은 정확도를 보였다.

PEPO 도입에 따른 계산 오버헤드는 전체 학습 시간의 1% 미만으로 매우 적었다. 또한 학습 곡선 분석 결과, 기존 엔트로피 기반 강화학습이 겪는 성능 붕괴 현상 없이 안정적인 수렴과 더 높은 보상(Reward) 달성을 확인했다.

실무 활용

시각 정보와 논리적 추론이 결합된 복잡한 멀티모달 서비스의 성능을 개선하는 데 즉시 적용 가능하다. 추가적인 모델 구조 변경 없이 기존 강화학습 파이프라인에 가중치 계산 로직만 추가하면 되므로 구현 비용이 낮다.

기하학 문제 풀이 및 수학 교육용 AI 튜터 개발
이미지 내 객체 위치를 정확히 식별하고 설명하는 시각적 접지 서비스
복잡한 도표나 차트를 분석하여 논리적 결론을 도출하는 비즈니스 인텔리전스 도구
제한된 데이터 환경에서의 소수 샷(Few-shot) 이미지 분류 성능 최적화

기술 상세

PEPO는 LVLM의 내부 은닉 상태를 직접 활용하여 시각-언어 정렬을 측정하는 비지도 방식의 토큰 수준 보상 재분배 기법이다. 별도의 보조 네트워크나 마스킹 전략 없이도 모델의 내재된 지식을 활용해 최적화 신호를 정교화한다.

핵심 알고리즘은 시각적 유사도를 Perception Prior로 사용하고, 토큰 엔트로피를 Exploration Signal로 사용하여 상호보완적인 가중치를 생성하는 것이다. 시각적 유사도는 CoT 과정에서 시각적 실체에 해당하는 토큰을 강조하고, 엔트로피는 논리적 전환점에서의 탐색을 장려한다.

수학적으로 PEPO는 시퀀스 단위의 총 Advantage 질량을 보존하도록 설계되었다. 이는 전체 Gradient의 크기를 유지하면서 토큰 간의 신용 할당만을 재분배하여 학습의 안정성을 보장한다.

구현 측면에서 GRPO와 DAPO 모두에 적용 가능하며, 학습 단계에 따라 토큰 수준 변조 강도를 선형적으로 증가시키는 스케줄링 전략을 채택하여 초기 학습의 불안정성을 방지한다.

한계점

2B에서 3B 규모의 모델에서만 실험이 진행되었으며, 7B 이상의 대규모 모델이나 긴 컨텍스트 설정에서의 확장성은 하드웨어 제약으로 인해 검증되지 않았다. 또한 비디오 이해나 도구 활용 추론과 같은 더 넓은 범위의 작업에 대한 평가는 향후 과제로 남아 있다.

키워드

Multimodal CoT(멀티모달 사고 사슬)RLVR(검증 가능한 보상을 통한 강화학습)Token-Level Optimization(토큰 수준 최적화)Visual Grounding(시각적 접지)GRPO(그룹 상대 정책 최적화)

멀티모달 Chain-of-Thought를 위한 토큰 수준 정책 최적화의 재고

왜 중요한가

핵심 기여

시각적 근거와 탐색의 상호보완적 역할 규명

PEPO(Perception-Exploration Policy Optimization) 프레임워크 제안

범용적인 강화학습 프레임워크와의 높은 통합성

GRPO 및 DAPO와 같은 기존 강화학습 구조에 매끄럽게 통합되며, 계산 오버헤드를 1% 미만으로 유지하면서도 다양한 벤치마크에서 성능 향상을 달성했다.

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

기하학 문제 풀이 및 수학 교육용 AI 튜터 개발
이미지 내 객체 위치를 정확히 식별하고 설명하는 시각적 접지 서비스
복잡한 도표나 차트를 분석하여 논리적 결론을 도출하는 비즈니스 인텔리전스 도구
제한된 데이터 환경에서의 소수 샷(Few-shot) 이미지 분류 성능 최적화

멀티모달 Chain-of-Thought를 위한 토큰 수준 정책 최적화의 재고

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

기술 상세

한계점

키워드

멀티모달 Chain-of-Thought를 위한 토큰 수준 정책 최적화의 재고

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

기술 상세

한계점

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드