당신의 비평가를 믿으세요: 충실한 이미지 편집 및 생성을 위한 강건한 보상 모델링 및 강화학습

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존 이미지 생성 및 편집 모델은 강화학습 과정에서 보상 모델이 주는 부정확한 점수 때문에 엉뚱한 물체를 만들거나 원본을 훼손하는 '환각' 문제를 겪어왔다. 이 논문은 이미지의 차이점을 먼저 분석하고 체크리스트를 활용하는 정교한 비평가 모델(FIRM)을 도입하여, 사용자의 명령을 정확히 따르면서도 고품질의 이미지를 생성하는 새로운 기술적 표준을 제시한다.

왜 중요한가

핵심 기여

FIRM 프레임워크 및 고품질 데이터셋 구축

이미지 편집을 위한 FIRM-Edit-370K와 생성을 위한 FIRM-Gen-293K 데이터셋을 구축하고, 이를 통해 강건한 보상 모델인 FIRM-Edit-8B 및 FIRM-Gen-8B를 학습시킴.

차이점 우선 및 체크리스트 기반 데이터 파이프라인

이미지 편집 시 두 이미지의 시각적 차이를 먼저 텍스트로 기술하는 'Difference-first' 방식과 생성 시 세부 항목을 검증하는 체크리스트 전략을 도입하여 보상의 정확도를 높임.

Base-and-Bonus 보상 융합 전략

편집을 위한 CME(Consistency-Modulated Execution)와 생성을 위한 QMA(Quality-Modulated Alignment) 전략을 통해 보상 해킹을 방지하고 여러 목표 간의 균형을 유지함.

핵심 아이디어 이해하기

강화학습에서 모델은 '비평가(Reward Model)'가 주는 점수를 높이는 방향으로 학습한다. 하지만 기존 비평가들은 이미지의 미세한 변화를 감지하지 못하거나, 단순히 원본을 복사하는 것만으로도 높은 점수를 주는 등 허점이 많았다. 이는 모델이 실제 실력을 키우는 대신 점수만 잘 받는 편법을 배우게 만든다. FIRM은 이 문제를 해결하기 위해 비평가에게 '논리적 사고 과정'을 부여한다. 이미지 편집 시에는 원본과 결과물을 대조하여 무엇이 바뀌었는지 텍스트로 먼저 설명하게 하고, 생성 시에는 프롬프트에서 추출한 체크리스트를 하나씩 체크하게 한다. 이는 딥러닝 모델의 Attention이 중요한 시각적 특징에 정확히 집중하도록 유도하는 장치가 된다. 또한 보상 계산 방식을 곱셈 구조로 바꾸어, 명령을 제대로 수행하지 않으면 다른 품질이 아무리 좋아도 높은 점수를 받을 수 없게 설계했다. 결과적으로 모델은 환각 없이 사용자의 의도를 충실히 반영하는 법을 배우게 된다.

방법론

FIRM-Edit 파이프라인은 'Difference-first' 전략을 사용한다. [원본과 편집된 이미지 쌍을 입력으로] → [MLLM이 두 이미지의 시각적 차이를 텍스트로 상세히 기술하게 하여] → [이 텍스트 정보를 바탕으로 실행력과 일관성 점수를 산출한다]. 시각적 변화를 언어적 설명으로 변환하는 과정을 거침으로써 평가의 객관성을 확보한다. FIRM-Gen 파이프라인은 'Plan-then-score' 방식을 적용한다. [사용자 프롬프트를 입력으로] → [LLM이 주요 대상, 속성, 스타일 등 검증 항목이 담긴 스코어링 플랜을 작성하고] → [MLLM이 이미지에서 각 항목을 단계별로 검사하여 최종 점수를 매긴다]. 이는 복잡한 명령어를 쪼개어 평가함으로써 모델의 주의력 분산(Attention Dilution) 문제를 완화한다. 강화학습 보상 함수로는 CME(Consistency-Modulated Execution)를 도입했다. [실행력 점수 E와 일관성 점수 C가 주어질 때 E * (0.6 + 0.4 * C)를 계산한다] → [최종 보상을 얻고] → [이 값은 명령 수행이 전제되지 않으면 전체 점수가 낮아지도록 강제하는 의미를 갖는다].

주요 결과

FIRM-Edit-8B 모델은 FIRM-Bench-Edit 벤치마크에서 실행력 MAE 0.53, 일관성 MAE 0.73을 기록하며 GPT-5를 포함한 기존의 모든 오픈소스 및 상용 모델을 능가하는 성능을 보였다. 특히 실행력 측면에서 인간의 판단과 가장 높은 일치도를 보였다. 강화학습을 거친 FIRM-Qwen-Edit 모델은 GEditBench에서 7.84점을 기록하며 새로운 SOTA를 달성했다. 이는 기존 UniWorld-Qwen-Image-Edit(7.76점)보다 높은 수치이며, 훨씬 적은 수의 학습 샘플(2,400개)만으로도 뛰어난 효율성을 입증했다. 이미지 생성 분야에서도 FIRM-SD3.5 모델은 GenEval(0.77), DPGBench(87.16) 등 주요 벤치마크에서 SD3.5-Medium 베이스라인 대비 큰 폭의 성능 향상을 보였으며, 특히 복잡한 프롬프트에 대한 지시 이행 능력이 크게 개선됐다.

기술 상세

FIRM 프레임워크는 Qwen3-VL-8B-Instruct를 백본으로 사용하며, FIRM-Edit-370K 및 FIRM-Gen-293K라는 대규모 특화 데이터셋으로 학습되었다. 데이터셋 구축 시 GPT-4o 수준의 고성능 모델을 활용해 고품질의 추론 경로(Reasoning Path)를 생성하고 이를 소형 모델이 학습하도록 증류(Distillation)하는 방식을 취했다. 보상 모델의 신뢰성을 검증하기 위해 807개의 인간 주석 데이터로 구성된 FIRM-Bench를 구축했다. 실험 결과, FIRM-Edit-8B는 실행력 부문에서 MAE 0.53을 기록하며 Gemini-3-Pro(0.54)나 GPT-5(0.62)보다 인간의 평가와 더 잘 일치하는 성능을 보였다. 강화학습 알고리즘으로는 DiffusionNFT를 채택하여 Flow matching 기반의 온라인 최적화를 수행했다. 특히 보상 함수를 곱셈 형태로 구성한 'Base-and-Bonus' 전략은 다중 목표 최적화에서 흔히 발생하는 목표 간 충돌과 최적화 붕괴를 효과적으로 억제함을 입증했다.

실무 활용

이미지 생성 및 편집 서비스에서 사용자의 의도를 더 정확하게 반영하고 품질을 높이는 보상 엔진으로 즉시 활용 가능하다. 특히 자동화된 이미지 검수 시스템이나 RLHF를 통한 모델 고도화에 효과적이다.

AI 이미지 편집 툴의 명령어 이행 정확도 개선
텍스트-이미지 생성 모델의 환각 현상 억제 및 품질 검수
고품질 이미지-텍스트 데이터셋 자동 필터링 및 레이블링
멀티모달 에이전트의 시각적 피드백 시스템 구축

코드 공개 여부: 공개

코드 저장소 보기

키워드

RL(강화학습)Reward Modeling(보상 모델링)Image Editing(이미지 편집)T2I(텍스트-이미지 생성)Hallucination(환각)MLLM(멀티모달 대형 언어 모델)