TL;DR
멀티모달 대형언어모델은 실제 세계의 노이즈가 많은 시각 입력에서 불안정하다. ROMA는 critic-free GRPO 기반 RL 파인튜닝에 시각 열화에 대한 견고한 추론을 주입하기 위해 dual-forward-pass, token-level KL invariance, adversarial 다중 뷰 정규화, 교육 보조 그래디언트를 결합한다. 이로써 깨끗한 입력 성능을 유지하면서 seen/unseen corruptions에 대한 견고함이 향상된다.
왜 중요한가
멀티모달 대형언어모델은 실제 세계의 노이즈가 많은 시각 입력에서 불안정하다. ROMA는 critic-free GRPO 기반 RL 파인튜닝에 시각 열화에 대한 견고한 추론을 주입하기 위해 dual-forward-pass, token-level KL invariance, adversarial 다중 뷰 정규화, 교육 보조 그래디언트를 결합한다. 이로써 깨끗한 입력 성능을 유지하면서 seen/unseen corruptions에 대한 견고함이 향상된다.
핵심 기여
ROMA의 RL 파인튜닝으로 시각 열화에 대한 견고성 확보
critic-free 파이프라인 GRPO를 활용하는 MLLM의 비판적 학습 없이도, 시각 열화에 대해 논리적 추론의 일관성을 유지하는 RL 파인튜닝 프레임워크를 제시한다.
Worst-case token-level invariance penalty
token 단위 KL 발산을 이용해 깨끗한 입력과 degraded 입력 간 정책 분포의 일치를 강제하되, worst-case augmentation에 대해 최댓값으로 규제한다.
Correctness-conditioned regularization
정확한 clean 롤아웃에만 invariance를 적용해 잘못된 논리를 과도하게 일반화하는 현상을 방지한다.
Auxiliary policy gradient anchored to clean advantages
degraded 뷰에서의 보조 경사 하강법을 clean 이점으로 앵커링해, 규제에도 안정적으로 학습 신호를 제공한다.
실험적 검증
MathVista, WeMath, ChartQA, LogicVista, MMStar, VisualPuzzles, RealWorldQA의 7개 벤치마크에서 seen/unseen 교란에 대해 기존 GRPO 대비 견고성 증가 및 clean 성능 유지.
핵심 아이디어 이해하기
- 출발점: autoregressive MLLM의 RL 학습은 깨끗한 입력에 대해 성능이 좋지만, 시각 열화에 취약하고 reward poisoning 위험이 있다. GRPO 기반의 critic-free 설정에서 가치망의 정규화를 사용할 수 없으므로, 시각적 invariance를 정책 수준에서만 다룰 필요가 있다.
- 해결 원리: dual-forward-pass를 통해 clean 입력에서 얻은 롤아웃 경로를 고정하고, degraded 뷰를 여러 개 생성해 teacher forcing 하에 같은 시퀀스의 토큰 확률을 비교한다. stop-gradient로 clean 정책 출력을 보존하고, degraded 뷰 간의 분포 차이가 가장 큰 경우에만 Gπ(θ,f)를 적용한다.
- 달라지는 점: Worst-case multi-view 정규화(Gworstπ)로 adversarial한 시각 변화에 대한 일반화가 촉진되고, 보조 정책 그래디언트(Jaug_pg)는 degraded 입력에서도 보상 신호를 유지하게 하며, correctness-conditioning은 올바른 논리 경로에만 정합성을 강제한다.
- 기대 효과: clean 입력에서의 성능을 유지하면서 seen/unseen 교란에 대한 평균 정확도가 향상되며, Level 3와 같은 심한 교란에서도 GRPO보다 더 나은 견고성을 보여준다.
방법론
- 문제 정의: y ∼ πθ(· | v, x)로 질문 x와 시각 입력 v를 받아 논리적 사고 경로를 생성하고, 보상 R(v,x,y)로 성능을 평가한다. 기본 RL 목적은 JRL(θ) = E[R(v,x,y)]를 최대화한다.
- Correctness-Conditioned Token-Level Invariance: f(v)로 degraded 뷰를 만들고, Gπ(θ,f) = E[sum_t DKL( sg πθ(·|v,x,y<t) || πθ(·|f(v),x,y<t) )]를 적용하되, R(y) > 0인 성공 경로에만 적용한다. per-token KL은 pt log(pt) − qt log(pt) 형태로 근사한다.
- Worst-Case Multi-View Optimization: FK에서 K개의 degraded 뷰를 샘플하고, 각 Gπ(θ,fk)를 계산한 뒤 최댓값만 정규화로 사용한다. 즉, Gworstπ(θ) = max_fk∈FK Gπ(θ,fk).
- Auxiliary Policy Gradient: Jaug_pg(θ) = Ef∈FK E_y [sum_t min(ρt A, clip(ρt,1−ε,1+ε)A)], ρt = πθ(yt|f(v),x,y<t) / πold(yt|v,x,y<t). 이는 clean 롤아웃의 advantages A(v,x,y)에 고정된 학습 신호를 제공한다.
- 총 목적: Jtotal(θ) = JRL(θ) + α Jaug_pg(θ) − β E [Gworstπ(θ) · I[R(v,x,y) > 0]]. 이 구조는 clean 입력 성능 유지와 함께 robust한 시각 인지 능력을 강화한다.
관련 Figure

도표는 clean 입력에서의 롤아웃과 degraded 뷰들에 대한 재평가 흐름, 토큰-레벨 KL 정규화, correctness 마스킹, auxiliary PG를 하나의 총 목적 함수로 결합하는 과정을 보여준다. 논문 핵심 기여인 방법론의 흐름을 시각적으로 제공한다.
ROMA 아키텍처의 dual-forward-pass 도식
주요 결과
- 메인 벤치마크: 8B에서 ROMA는 clean 입력에서 GRPO와 동등한 수준의 성능(약 68.7%대)을 유지하면서, seen degradations에서 61.6%, unseen degradations에서 56.3%의 평균 정확도를 달성한다. GRPO의 해당 구간은 각각 약 59.2%와 54.0%였다. Level 3 심화 교란에서도 ROMA가 +2.3%/+2.4%의 개선을 보였고, clean-to-degraded 간 격차를 감소시켰다.
- 4B 모델 ablation: ROMA의 성능은 멀티-뷰 최적화의 worst-case 버전이 mean penalty보다 약 1.6%p(Seen) 및 1.8%p(Unseen) 더 우수함을 보여준다.
- Auxiliary PG ablation: Auxiliary PG를 제거하면 Seen 평균 60.5%, Unseen 평균 55.4%로 감소, 전체적으로 약 1.0–1.1%p의 하락이 관찰된다.
- Correctness conditioning: Unconditional penalty를 적용하면 Seen 59.4%, Unseen 54.1%로 감소하므로 correctness-conditioning은 평균 약 2.2%p의 이득을 제공한다.
- K 값 영향: K=3이 기본값으로 제시되며, K=1/2/4에 비해 더 높은 Robustness를 보인다. 최적의 β 값은 0.10으로, 0.05/0.15보다 더 나은 성능을 보인다.
관련 Figure

그래프는 수준별(Clean, Level 1-3) 교란에서 ROMA가 GRPO 대비 견고함이 우수하며, Level 3에서도 우세함을 수치로 보여준다. seen/unseen 분리 성능 차이 및 전체 robustness 개선의 근거를 제공한다.
Seen/Unseen 교란에 대한 ROMA vs GRPO vs Base의 압축 평균 정확도 비교 그래프

교란 유형의 시각적 차이를 직관적으로 보여주며, seen vs unseen 교란 구조의 차이가 학습 및 일반화에 미치는 영향을 시각적으로 보조한다.
시각적 열화 유형(Gaussian Noise/Blur, JPEG, Resolution 등)의 질적 예시
기술 상세
- 아키텍처: autoregressive MLLM에 대한 critic-free GRPO 기반 RL 파인튜닝에서 Dual-forward-pass를 도입해, clean 롤아웃 경로를 고정하고 degraded 뷰에 대해 token-level 확률을 재평가한다. 이때 Gπ(θ,f) 토큰-레벨 KL 발산을 도입하되, stop-gradient를 통해 clean 출력을 보호한다.
- 수학적 기반: Gπ(θ,f) = E[Σ_t DKL( sg πθ(yt|v,x,y<t) || πθ(yt|f(v),x,y<t) )], DKL은 pt log pt − qt log qt와 근사한다. Worst-case는 Gworstπ(θ) = max_fk∈FK Gπ(θ,fk)로 정의된다.
- 학습 전략: Jtotal(θ) = JRL(θ) + α Jaug_pg(θ) − β Gworstπ(θ) I[R>0]. Jaug_pg은 ρt를 이용한 clipped surrogate를 clean advantages에 고정된 상태에서 계산한다.
- 구현상 세부: multi-view 수 K=3, α=0.10, β=0.10를 기본값으로 설정하고 EasyR1 프레임워크를 사용하여 120 스텝 학습을 수행한다.
실무 활용
ROMA는 critic-free RL 파인튜닝 환경에서 시각 교란에 대한 견고한 멀티모달 추론을 가능하게 하므로, 노이즈가 많은 실제 환경에서도 강건한 추론 시스템 구축에 적용할 수 있다.
- 실세계 로봇 비전 + 자연어 추론 시스템의 회피 및 계획 동작의 견고성 향상
- 문서 스캔/이미지 기반 차트 분석 시스템의 교란 강건성 강화
- 의료 영상 기반 멀티모달 진단 보조 도구의 시각 노이즈 역전 안정화
- 자율주행 시각 인지 모듈의 악화된 환경 적응성 향상
코드 공개 여부: 미확인
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.