왜 중요한가
기존의 텍스트 기반 지표나 단순 이미지 유사도 측정 방식은 차트나 표의 미세한 데이터 오류를 잡아내지 못해 AI가 보상을 속이는 '리워드 해킹'에 취약했습니다. 이 논문은 생성된 코드를 다시 이미지로 렌더링하여 원본과 직접 비교하는 시각적 보상 모델을 제안하여, AI가 실제 시각적 결과물까지 정확하게 생성하도록 유도합니다.
핵심 기여
Visual-ERM 제안
시각적 동등성을 평가하는 멀티모달 생성형 리워드 모델로, 미세한 시각적 차이를 포착하고 해석 가능한 피드백을 제공함.
VisualCritic-RewardBench 구축
차트, 표, SVG 데이터에서 미세한 이미지 간 차이를 판단하는 1,335개의 고품질 데이터셋 벤치마크 도입.
강화학습 성능 향상
Qwen3-VL-8B-Instruct 모델에 적용 시 차트-투-코드 작업에서 +8.4점의 성능 향상을 달성하며 기존 DINO 기반 보상을 압도함.
테스트 타임 스케일링 지원
모델이 스스로 생성한 결과를 비판하고 수정하는 자기 반성(Self-reflection) 루프를 가능하게 하여 추론 시 정확도를 추가 개선함.
핵심 아이디어 이해하기
기존 Vision-to-Code 모델은 주로 텍스트 기반의 Edit Distance나 단순한 Vision Encoder(DINO 등)의 임베딩 유사도를 보상으로 사용했다. 하지만 텍스트 지표는 레이아웃이나 정렬 오류를 놓치기 쉽고, Vision Encoder는 의미적 유사성에는 민감하지만 수치나 미세한 선의 위치 같은 세부적인 시각적 불일치를 감지하지 못해 모델이 보상 점수만 높이고 실제 결과는 엉망인 '리워드 해킹' 문제가 발생한다.
Visual-ERM은 생성된 코드를 실제 이미지로 렌더링한 후, 원본 이미지와 렌더링된 이미지를 동시에 입력받아 차이점을 분석하는 방식을 취한다. 이는 딥러닝의 Cross-modal Alignment 개념을 확장한 것으로, 두 이미지 사이의 구조적, 데이터적, 텍스트적 불일치를 픽셀 단위에서 추론하여 구체적인 오류 카테고리와 심각도를 출력한다.
이 모델은 단순한 스칼라 점수뿐만 아니라 'X축 라벨이 누락됨'과 같은 자연어 피드백을 생성한다. 이를 통해 강화학습 과정에서 더 정교한 Gradient를 제공할 뿐만 아니라, 추론 단계에서도 모델이 자신의 오류를 인지하고 수정하는 반복적 최적화(Iterative Refinement)를 가능하게 하여 최종 출력의 시각적 완성도를 극대화한다.
방법론
전체 파이프라인은 데이터 생성, 지도 학습(SFT), 그리고 강화학습(RL) 통합의 3단계로 구성된다. 먼저 GPT-5-mini를 활용해 원본 데이터에 의도적인 오류(데이터 변조, 스타일 변경 등)를 주입하거나 약한 모델의 추론 결과를 수집하여 34만 개 규모의 시각적 불일치 데이터셋을 구축한다.
리워드 모델 학습을 위해 Negative Log-Likelihood(NLL) 목적 함수를 사용한다. [입력 이미지 쌍 (I*, Î)과 정답 주석 a를 입력으로] → [토큰별 확률 분포 p(a_t | x, a_<t)를 계산하여] → [실제 정답 토큰의 확률을 최대화하는 방향으로 학습하여] → [두 이미지 간의 미세한 차이를 설명하고 점수화하는 능력을 확보한다].
강화학습 단계에서는 GRPO(Group Relative Policy Optimization) 알고리즘을 채택한다. [정책 모델이 생성한 코드 y를 렌더링한 이미지 Î와 원본 I*를 Visual-ERM에 입력하여] → [예측된 오류들의 심각도 합산(S_verm)을 계산하고 이를 [0, 1] 범위로 정규화하여] → [최종 보상 r = r_rsr + r_verm (렌더링 성공 여부 + 시각적 동등성 점수)을 산출한다].
주요 결과
Chart-to-Code 벤치마크인 ChartMimic에서 Qwen3-VL-8B-Instruct 모델의 평균 점수를 69.6점에서 78.0점으로 8.4점 향상시켰다. 이는 기존 DINO 기반 보상 방식(+6.5점)보다 월등한 성과이며, 특히 복잡한 차트 재구성 능력에서 큰 강점을 보였다.
Table-to-Markdown 및 SVG-to-Code 작업에서도 각각 +2.7점, +4.1점의 일관된 성능 향상을 기록했다. 특히 표 파싱 작업에서 DINO 기반 보상은 오히려 성능을 저하시키는 경우가 많았으나, Visual-ERM은 텍스트와 레이아웃을 동시에 고려하여 안정적인 학습을 유도했다.
자체 구축한 VC-RewardBench 평가 결과, 8B 규모의 Visual-ERM이 235B 규모의 Qwen3-VL-Instruct 모델을 큰 차이로 앞질렀으며, GPT-4o나 Gemini 2.5 Pro와 같은 최신 폐쇄형 모델에 근접하는 오류 감지 능력을 입증했다.
실무 활용
UI 디자인을 코드로 변환하거나 복잡한 과학 논문의 도표를 데이터로 추출하는 시스템의 정확도를 획기적으로 높일 수 있습니다. 특히 AI가 생성한 결과물을 스스로 검토하고 수정하는 자동화된 품질 관리 루프 구축에 즉시 활용 가능합니다.
- 디자인 시안(Figma 등)을 React/HTML 코드로 자동 변환하는 도구의 정확도 검증
- PDF 내 복잡한 표와 차트를 정형 데이터(JSON/CSV)로 변환하는 파이프라인
- SVG 기반 아이콘 및 그래픽 생성 AI의 시각적 품질 평가 및 강화학습 보상 모델
- 데이터 시각화 챗봇의 출력 결과물 자동 교정 시스템
기술 상세
Visual-ERM은 Qwen3-VL-8B-Instruct를 백본으로 하며, 시각적 동등성 판단을 위해 특화된 생성형 리워드 모델(Generative Reward Model) 구조를 채택한다. 단순히 유사도 점수만 내는 판별 모델과 달리, 오류의 종류(Structure, Data, Text, Style), 위치, 심각도를 구조화된 JSON 형태로 출력하도록 설계되었다.
학습 데이터 구축 시 'Distillation from Strong Models' 전략을 사용했다. GPT-5-mini와 같은 고성능 모델로부터 미세한 차이점에 대한 설명을 생성하게 하고, 이를 8B 모델이 학습하도록 하여 대형 모델의 비판 능력을 소형 모델로 전이시켰다.
강화학습 시 보상 설계에서 Sverm = Σ sk 공식을 사용한다. [각 오류의 심각도 점수 sk를 입력으로] → [모든 오류에 대해 합산 연산을 수행해] → [전체 불일치 정도를 나타내는 Sverm 값을 얻고] → [이 값이 클수록 원본과 시각적 차이가 크다는 의미]로 해석하여 학습의 안정성을 확보했다.
Test-Time Scaling(TTS) 기법을 통해 추론 시에도 활용된다. 모델이 초기 코드를 생성하면 Visual-ERM이 이를 렌더링하여 피드백을 주고, 정책 모델이 이 피드백을 바탕으로 코드를 수정하는 과정을 3~4회 반복함으로써 최종 성능을 추가로 끌어올린다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.