DeltaRubric: 공동 계획 및 검증을 통한 생성형 다중모달 보상 모델링

multimodal 대형 언어 모델(MLLM)의 정렬은 보상 모델(RM)의 신뢰성에 의존한다. 기존의 단일 스텝 평가기는 시각적 맥락에 대한 세부 검증보다 텍스트 편향에 의존하는 경향이 있다. DeltaRubric은 평가를 plan-and-execute 절차로 재구성하여, Disagreement Planner가 인스턴스 특화 검증 체크리스트를 생성하고, Checklist Verifier가 이를 이미지와 질문에 대해 실행하도록 한다. 이 구조는 visual grounding을 강제하고 lazy judging을 완화하며, Planner와 Verifier를 함께 최적화하는 다중역 RL로 학습한다. VL-RewardBench에서 4B 모델은 +22.6포인트, 8B 모델은 +18.8포인트의 전반적 정확도 향상을 달성했고, Multimodal RewardBench 및 텍스트-전용 RewardBench에서도 일관된 개선을 보였다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

왜 중요한가

핵심 기여

DeltaRubric 프레임워크

단일 공유 MLLM에서 Disagreement Planner와 Checklist Verifier의 두 단계로 멀티모달 평가를 수행하는 구조를 제시한다. Planner는 후보 응답 간의 핵심 진실 차이를 검출하는 neutral하고 인스턴스 특화된 체크리스트를 생성하고, Verifier는 이를 이미지 I와 질문 q에 대하여 실행한다.

다중역 RL 최적화

Planner와 Verifier에 대해 독립적으로 advantage를 계산하는 GRPO/DAPO 기반의 후향 학습 신호를 사용해 공동 정책을 업데이트한다. 서로 다른 목표를 분리하여 학습 신호가 Task 간 상호 간섭 없이 작동하도록 한다.

강화된 시각적 검증으로의 일반화

체크리스트를 통해 구체적 시각 증거를 요구함으로써 시각적 잘못 진술(hallucination)과 모호한 주장에 대해 보다 정확한 최종 판단을 도출한다.

대규모 벤치마크에서의 실험적 성과

VL-RewardBench에서 4B/8B 모델의 전반적 정확도 향상(+22.6/ +18.8), No-rubric 대비 대폭 개선을 확인. Multimodal RewardBench에서도 8B에서 +5.5 포인트의 향상을 달성하고, 텍스트 전용 RewardBench에서도 기억력 저하 없이 핵심 추론 능력을 강화했다.

핵심 아이디어 이해하기

출발점: RLHF를 통해 언어 모델의 인간 선호를 추정하는 보상 모델의 중요성은 크지만, 시각적 검증이 필요한 다중모달 환경에서 단일 스텝 평가로는 세부 정보의 근거를 확보하기 어렵다. 1단계: Planner는 두 후보 응답 간의 충돌 지점을 추출하고 neutral한 verification checklist를 생성한다. 2단계: Verifier는 이미지와 질문을 바탕으로 checklist의 각 항목을 실행해 grounded evidence를 수집·종합한다. 3단계: 학습은 두 역할의 신호를 독립적으로 평가하고 합치는 다중역 RL로 진행되어, Planner의 체크리스트 품질과 Verifier의 실행 정확도를 서로 보완한다. 효과: instance-specific한 rubrics를 동적으로 생성하므로, 시각적 차이와 공간 관계를 정확히 포착하여 lazy-pruning과 텍스트 편향을 줄이고, 벤치마크에서 일관된 성능 향상을 달성한다.

방법론

전체 접근 방식과 핵심 아이디어: 단일 공유 정책 파라미터 θ를 사용해 Planner와 Verifier를 순차적으로 수행시키는 이중 역할 구조를 도입한다. 2) 핵심 메커니즘: Disagreement Planner는 x=(I, q, yA, yB)에서 c∼πθ(·|x)로 체크리스트를 생성하고, Verifier는 c∗를 받아 r,z를 샘플링한다. Planner의 보상 Rplan(ci) = I(zi=z∗) − I(z0=z∗)으로 정의하고, Aplan을 표준화하여 업데이트한다. Verifier의 보상 Rverify(rj,zj) = I(zj=z∗) + λ max(0, I(zj=z∗) − I(z0=z∗))으로 정의하고, Averify를 표준화한다. 3) 학습 목표: Ltotal(θ|data,A) = Ex∼D[ (1/N)Σi Lθ|ci,Aplan(i) + (1/M)Σj Lθ|rj,zj,Averify(j) ]. 4) 데이터 및 실험 구성: 30k RLAIF-V 샘플로 RLHF 기반 학습, GRPO를 기반으로 120스텝 학습, λ=0.4의 가이던스 보너스 사용. 5) 대체 RL 알고리즘 호환성: DAPO에서도 유의미한 이득을 확인.

관련 Figure

Diagram
아키텍처의 주요 구성요소 간 관계를 확인할 수 있어 방법론의 흐름과 파이프라인의 상호작용 이해에 직접적으로 기여한다.
DeltaRubric 아키텍처 개요를 보여주는 다이어그램으로, Shared MLLM을 중심으로 Planner, Verifier, Checklist, 그리고 A/B 응답 흐름이 시각화된다.

Chart
체크리스트의 품질이 학습과 함께 향상됨을 보여주며 Planner의 능력 개선의 근거를 제공한다.
8B에서의 rubric 생성 정확도(체크리스트 품질) 그래프.

Diagram
플래너-검증자 간의 학습 흐름과 대략적 신호 흐름을 시각적으로 확인 가능하다.
Figure 2: Planner 및 Verifier 학습 다이나믹의 시각적 요약 그림.

Diagram
구체적 시각 속성(예: 신발 색상, 스텝 여부 등) 차이를 체크리스트로 검증하는 과정을 보여준다.
Figure 4: Response A/B에 대한 DeltaRubric의 Qualitative 비교(주요 디테일 검증).

주요 결과

주요 벤치마크 성과: VL-RewardBench에서 Qwen3-VL-4B Instruct 모델은 +22.6포인트, Qwen3-VL-8B Instruct 모델은 +18.8포인트의 전체 정확도 향상을 보였다. No rubric 대비 개선 포인트: +4.3(4B), +8.1(8B). Multimodal RewardBench에서는 8B 모델이 +5.5 포인트 향상을 기록했다(0. 차이: +4.5 포인트도 No-rubric 대비). 텍스트 전용 RewardBench에서도 DeltaRubric가 성능을 유지하며 전반적 언어능력을 보존·향상시켰고 Reasonsing 부문에서 특히 크게 개선되었다. Ablation: static rubric 대비 동적으로 생성된 체크리스트가 Reasoning에서 8B 모델에 +13.0 포인트의 이점을 제공했다. Planner를 RL로 학습시킨 경우 +6.3 포인트 개선을 확인했고, 텍스트-Only Planner 버전은 약간 낮은 성능을 보였으나 Full DeltaRubric가 가장 높은 Overall/ Macro 성능을 달성했다.

관련 Figure

Chart
DeltaRubric의 도입으로 보상 정확도가 No Rubric 대비 안정적으로 상승하는 경향을 시각적으로 확인할 수 있다.
8B 모델의 보상 정확도 추이를 나타내는 그래프.

Chart
훈련 중 및 검증 시 DeltaRubric의 일반화 능력 향상을 시각적으로 뒷받침한다.
8B 모델의 검증 정확도와 보상 지표를 보여주는 그래프.

Diagram
실제 사례에서 체크리스트의 효과를 보여주며 시각적 검증의 중요성을 보강한다.
Figure 3: DeltaRubric과 No Rubric 간의 Qualitative 비교 예시.

Diagram
다른 사례에서도 체크리스트의 디테일 검증이 잘 작동함을 시각적으로 제시한다.
Figure 5: 추가 Qualitative 비교 예시—두 응답 간의 구체적 차이 검증.

실무 활용

실무적으로는 시각 정보가 필요한 문제에서의 평가·선형 보상 모델 개발에 적용 가능하다. 판정의 근거를 이미지로 검증하고, 루브릭 기반의 구조적 평가를 통해 신뢰성과 재현성을 향상시킨다.

멀티모달 평가 파이프라인에 대한 자동화된 루브릭 생성 도입
비전-텍스트 평가에서의 편향 감소 및 더 나은 근거 제시
보상모델 학습에서의 grounded reasoning 강화
모델 비교/선정 시 세부 시각적 증거에 기반한 차등 평가

코드 공개 여부: 미확인

키워드

"multimodal reward modeling""plan-and-execute""Disagreement Planner""Checklist Verifier""RLHF""VL-RewardBench""visual grounding""instance-specific verification"

DeltaRubric: 공동 계획 및 검증을 통한 생성형 다중모달 보상 모델링

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

왜 중요한가

핵심 기여

DeltaRubric 프레임워크

다중역 RL 최적화

강화된 시각적 검증으로의 일반화

체크리스트를 통해 구체적 시각 증거를 요구함으로써 시각적 잘못 진술(hallucination)과 모호한 주장에 대해 보다 정확한 최종 판단을 도출한다.

대규모 벤치마크에서의 실험적 성과

핵심 아이디어 이해하기

방법론

전체 접근 방식과 핵심 아이디어: 단일 공유 정책 파라미터 θ를 사용해 Planner와 Verifier를 순차적으로 수행시키는 이중 역할 구조를 도입한다. 2) 핵심 메커니즘: Disagreement Planner는 x=(I, q, yA, yB)에서 c∼πθ(·|x)로 체크리스트를 생성하고, Verifier는 c∗를 받아 r,z를 샘플링한다. Planner의 보상 Rplan(ci) = I(zi=z∗) − I(z0=z∗)으로 정의하고, Aplan을 표준화하여 업데이트한다. Verifier의 보상 Rverify(rj,zj) = I(zj=z∗) + λ max(0, I(zj=z∗) − I(z0=z∗))으로 정의하고, Averify를 표준화한다. 3) 학습 목표: Ltotal(θ|data,A) = Ex∼D[ (1/N)Σi Lθ|ci,Aplan(i) + (1/M)Σj Lθ|rj,zj,Averify(j) ]. 4) 데이터 및 실험 구성: 30k RLAIF-V 샘플로 RLHF 기반 학습, GRPO를 기반으로 120스텝 학습, λ=0.4의 가이던스 보너스 사용. 5) 대체 RL 알고리즘 호환성: DAPO에서도 유의미한 이득을 확인.

관련 Figure

주요 결과

관련 Figure

실무 활용

멀티모달 평가 파이프라인에 대한 자동화된 루브릭 생성 도입
비전-텍스트 평가에서의 편향 감소 및 더 나은 근거 제시
보상모델 학습에서의 grounded reasoning 강화
모델 비교/선정 시 세부 시각적 증거에 기반한 차등 평가

코드 공개 여부: 미확인

키워드

"multimodal reward modeling""plan-and-execute""Disagreement Planner""Checklist Verifier""RLHF""VL-RewardBench""visual grounding""instance-specific verification"

DeltaRubric: 공동 계획 및 검증을 통한 생성형 다중모달 보상 모델링

TL;DR

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

키워드

DeltaRubric: 공동 계획 및 검증을 통한 생성형 다중모달 보상 모델링

TL;DR

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드