Perceval: 지각 중심 프로세스 보상 모델을 통한 시각-언어 모델의 추론 능력 향상

시각-언어 모델(VLM)이 복잡한 추론 과정에서 겪는 지각적 오류와 환각 문제를 해결하기 위해 토큰 단위의 세밀한 피드백을 제공하는 새로운 보상 모델을 제안합니다. 기존의 결과 중심 보상 방식이 가진 한계를 극복하고 추론 단계마다 시각적 근거를 검증함으로써 모델의 신뢰성을 높였습니다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

지각 중심 프로세스 보상 모델 Perceval 제안

추론 과정의 각 단계에서 시각적 증거와 일치하지 않는 지각적 오류를 명시적으로 식별하고 토큰 단위의 피드백을 제공하는 PRM(Process Reward Model)을 개발했다.

토큰 수준의 Advantage 재할당 프레임워크

기존 GRPO의 시퀀스 단위 보상을 개선하여, Perceval이 식별한 환각 토큰 구간에만 정밀한 페널티를 부여하는 토큰 수준의 Advantage 계산 방식을 도입했다.

추론 시점의 반복적 정제 전략

테스트 시점에 Perceval이 오류를 감지하면 해당 지점에서 생성을 중단하고 다시 생각하게 하거나 재생성하도록 유도하는 Truncate-then-Regenerate 루프를 설계했다.

핵심 아이디어 이해하기

기존의 시각-언어 모델 학습은 주로 전체 답변이 맞았는지 틀렸는지만을 따지는 결과 중심 보상(Outcome-level Reward)에 의존했다. 하지만 복잡한 시각적 추론은 여러 단계의 사고 과정을 거치는데, 중간 단계에서 사물의 위치나 속성을 잘못 파악하는 지각적 오류가 발생해도 최종 결과만으로 이를 교정하기는 매우 어렵다. 이는 마치 수학 문제 풀이 과정에서 중간 계산이 틀렸음에도 최종 답만 보고 점수를 매기는 것과 같아, 모델이 정확히 어떤 부분에서 실수를 했는지 학습하기 어렵게 만든다.

이 논문은 추론 과정의 각 토큰(단어 조각)이 시각적 정보와 일치하는지를 실시간으로 감시하는 Perceval이라는 '지각 감시자'를 도입하여 이 문제를 해결한다. Perceval은 모델이 내뱉는 문장 속의 주장들을 하나씩 추출하여 이미지 속 실제 객체 정보와 대조한다. 만약 모델이 이미지에 없는 물체를 언급하거나 위치를 틀리게 말하면, 해당 토큰 구간에 즉각적인 페널티를 부여한다.

이러한 정밀한 피드백은 모델이 단순히 정답을 맞히는 요령을 배우는 것이 아니라, 추론의 매 단계마다 시각적 근거를 철저히 확인하도록 강제한다. 결과적으로 모델은 환각 현상이 현저히 줄어들고, 복잡한 시각적 검색이나 논리적 추론 작업에서 훨씬 더 견고한 성능을 보이게 된다.

방법론

Perceval은 'Think-then-Answer' 패러다임을 사용하여 설계되었다. 먼저 입력된 이미지와 쿼리에 대한 모델의 응답에서 시각적 주장들을 추출하고, 이를 이미지 증거와 대조하여 오류 여부를 분석하는 사고 과정을 거친 후 최종적으로 오류가 포함된 텍스트 구간을 Python 리스트 형태로 출력한다.

학습 과정에서는 GRPO(Group Relative Policy Optimization) 알고리즘을 확장하여 토큰 단위의 Advantage를 계산한다. Perceval이 식별한 환각 구간에 대해 이진 마스크 Mi,t를 생성하고, 이를 기반으로 기존 시퀀스 Advantage Ai에 페널티 계수 α를 적용하여 수정된 Advantage A'i,t를 산출한다. [Ai - α * Mi,t * |Ai| → 연산 수행 → A'i,t 산출 → 환각 토큰의 영향력을 선택적으로 감소시킴]

테스트 시점(Inference)에서는 Truncate-then-Regenerate 전략을 사용한다. Perceval이 오류를 감지하면 해당 오류가 시작되기 직전까지의 텍스트만 남기고 나머지를 잘라낸다(Truncate). 이후 모델에게 '잠시만, 이 부분을 다시 생각해보자'라는 식의 프롬프트를 추가하여 올바른 시각적 근거를 바탕으로 답변을 이어가도록 유도한다.

관련 Figure

#1Diagram
모델이 생성한 응답(O1~OG)을 Perceval이 분석하여 오류 구간을 식별하고, 이를 토큰 단위의 Advantage 마스크(U1~UG)로 변환하여 학습에 반영하는 과정을 보여준다. 기존의 일괄적인 시퀀스 단위 보상과 대비되는 정밀한 토큰 단위 보상 체계를 시각화했다.
Perceval을 활용한 프로세스 감독 기반 GRPO 프레임워크의 전체 구조도

주요 결과

Qwen2.5-VL 모델을 기반으로 실험한 결과, Perceval을 적용한 모델은 다양한 벤치마크에서 기존 GRPO 대비 유의미한 성능 향상을 보였다. 특히 시각적 검색 능력을 측정하는 V* 벤치마크의 Pos(위치 파악) 서브태스크에서 3B 모델 기준 69.73%에서 72.37%로 성능이 향상되었으며, MathVision과 ChartQA 등 복잡한 추론이 필요한 영역에서도 일관된 개선을 입증했다.

테스트 시점 스케일링(Test-time Scaling) 실험에서는 제안된 Truncate 전략이 기존의 다수결(Major Voting) 방식보다 효율적임을 확인했다. 샘플링 횟수 k=16일 때 V* All 벤치마크에서 다수결 방식은 85.86%를 기록한 반면, Perceval 기반의 Truncate 전략은 89.53%를 달성하여 모델의 자가 수정 능력이 실제 정확도 향상으로 직결됨을 보여주었다.

관련 Figure

#2Screenshot
파란 트럭의 위치를 묻는 질문에 대해 기존 GRPO 모델은 시각적 근거 없이 '왼쪽'이라고 틀린 답을 내놓지만(환각), Perceval로 학습된 모델은 흰색 차량을 먼저 찾고 그와의 상대적 위치를 논리적으로 추론하여 '오른쪽'이라는 정답을 도출하는 과정을 보여준다.
기존 GRPO와 Perceval 적용 모델의 시각적 추론 사례 비교

기술 상세

Perceval은 Qwen2.5-VL-7B를 백본으로 하며, Gemini-2.5-Pro를 사용하여 생성한 고품질의 지각 중심 SFT 데이터를 통해 학습되었다. 데이터셋은 시각적 검색(Visual Search)과 참조 표현 접지(Referring Expression Grounding) 등 지각 집약적인 작업에 초점을 맞추어 구성되었다.

수학적으로는 GRPO의 목적 함수 내에서 Advantage 항을 토큰별로 차별화하는 것이 핵심이다. 오류 토큰에 대해 A'i,t = Ai(1 - α) (Ai > 0인 경우) 또는 A'i,t = Ai(1 + α) (Ai < 0인 경우)를 적용함으로써, 긍정적인 보상을 받는 시퀀스 내에서도 잘못된 지각 정보가 포함된 부분은 학습 기여도를 낮추고, 부정적인 보상을 받는 시퀀스에서는 오류 부분의 페널티를 더욱 강화한다.

이 방식은 보상 해킹(Reward Hacking)에 대한 저항력이 강하다. 전체 시퀀스에 단일 스칼라 값을 부여하는 대신, Perceval이 생성한 텍스트 기반의 논리적 근거를 통해 특정 토큰에만 간접적으로 개입하기 때문에 모델이 보상 모델의 편향을 악용하여 점수만 높이는 현상을 억제할 수 있다.

한계점

Perceval이 오류 구간을 식별할 때 텍스트 전체를 플래그(flag)로 지정하기 때문에, 해당 구간 내에 포함된 문법적으로는 필요하지만 사실관계와는 무관한 단어들(관사, 전치사 등)까지 함께 페널티를 받는 '부수적 페널티(Collateral Penalization)' 문제가 발생할 수 있다. 이는 학습 과정에서 노이즈로 작용할 가능성이 있다.

실무 활용

VLM의 고질적인 문제인 환각(Hallucination)을 억제해야 하는 실무 환경에서 즉시 활용 가능하다. 특히 정확한 시각적 근거가 필요한 의료 영상 분석, 자율 주행 모니터링, 복잡한 차트 해석 도구 등에 적용하여 신뢰도를 높일 수 있다.

전자상거래 플랫폼에서 상품 이미지와 설명 간의 불일치(환각) 자동 검수
복잡한 기술 도표나 차트를 분석하여 보고서를 작성하는 AI 에이전트의 정확도 향상
시각 장애인용 보조 공학 기기에서 주변 사물에 대한 잘못된 정보 전달 방지

코드 공개 여부: 공개

코드 저장소 보기

키워드

VLM(시각-언어 모델)PRM(프로세스 보상 모델)GRPO(그룹 상대 정책 최적화)Hallucination(환각)Token-level Advantage(토큰 단위 어드밴티지)

Perceval: 지각 중심 프로세스 보상 모델을 통한 시각-언어 모델의 추론 능력 향상

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

지각 중심 프로세스 보상 모델 Perceval 제안

토큰 수준의 Advantage 재할당 프레임워크

기존 GRPO의 시퀀스 단위 보상을 개선하여, Perceval이 식별한 환각 토큰 구간에만 정밀한 페널티를 부여하는 토큰 수준의 Advantage 계산 방식을 도입했다.

추론 시점의 반복적 정제 전략

핵심 아이디어 이해하기

방법론

관련 Figure

주요 결과

관련 Figure

기술 상세

한계점

실무 활용

전자상거래 플랫폼에서 상품 이미지와 설명 간의 불일치(환각) 자동 검수
복잡한 기술 도표나 차트를 분석하여 보고서를 작성하는 AI 에이전트의 정확도 향상
시각 장애인용 보조 공학 기기에서 주변 사물에 대한 잘못된 정보 전달 방지

코드 공개 여부: 공개

코드 저장소 보기

키워드

VLM(시각-언어 모델)PRM(프로세스 보상 모델)GRPO(그룹 상대 정책 최적화)Hallucination(환각)Token-level Advantage(토큰 단위 어드밴티지)

Perceval: 지각 중심 프로세스 보상 모델을 통한 시각-언어 모델의 추론 능력 향상

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

Perceval: 지각 중심 프로세스 보상 모델을 통한 시각-언어 모델의 추론 능력 향상

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드