핵심 요약
강화학습(Reinforcement Learning, RL)은 이미지 편집(Image Editing) 및 텍스트-이미지(Text-to-Image, T2I) 생성을 향상시키기 위한 유망한 패러다임으로 부상했습니다. 그러나 RL 과정에서 비평가(Critic) 역할을 하는 현재의 보상 모델(Reward Model)은 종종 환각(Hallucination)을 겪으며 노이즈가 섞인 점수를 할당하여 최적화 과정을 본질적으로 잘못 인도합니다. 본 논문에서는 충실한 이미지 생성 및 편집을 위해 정확하고 신뢰할 수 있는 가이드를 제공하는 강건한 보상 모델을 개발하는 포괄적인 프레임워크인 FIRM(Faithful Image Reward Modeling)을 제시합니다. 첫째, 고품질 스코어링 데이터셋을 구축하기 위해 맞춤형 데이터 큐레이션 파이프라인을 설계합니다. 구체적으로, 편집은 실행(Execution)과 일관성(Consistency)을 모두 사용하여 평가하며, 생성은 주로 지시 이행(Instruction Following)을 통해 평가합니다. 이러한 파이프라인을 사용하여 FIRM-Edit-370K 및 FIRM-Gen-293K 데이터셋을 수집하고, 이러한 기준을 정확하게 반영하는 전문 보상 모델(FIRM-Edit-8B 및 FIRM-Gen-8B)을 학습시킵니다. 둘째, 편집 및 생성 비평가를 위해 특별히 설계된 포괄적인 벤치마크인 FIRM-Bench를 도입합니다. 평가 결과, 제안된 모델은 기존 지표에 비해 인간의 판단과 우수한 정렬(Alignment)을 달성함을 보여줍니다. 또한, 이러한 비평가를 RL 파이프라인에 원활하게 통합하기 위해 상충하는 목표의 균형을 맞추는 새로운 "Base-and-Bonus" 보상 전략을 공식화합니다. 이는 편집을 위한 일관성 변조 실행(Consistency-Modulated Execution, CME)과 생성을 위한 품질 변조 정렬(Quality-Modulated Alignment, QMA)로 구성됩니다. 이 프레임워크를 통해 탄생한 모델인 FIRM-Qwen-Edit 및 FIRM-SD3.5는 상당한 성능 돌파구를 마련했습니다. 포괄적인 실험을 통해 FIRM이 환각을 완화하고 기존 일반 모델보다 충실도와 지시 준수에 대한 새로운 표준을 세웠음을 입증합니다.
핵심 기여
FIRM 프레임워크 및 고품질 데이터셋 구축
이미지 편집(370K) 및 생성(293K)을 위한 대규모 고품질 스코어링 데이터셋을 구축하고, 이를 통해 환각이 적은 전문 보상 모델인 FIRM-Edit-8B와 FIRM-Gen-8B를 학습시켰다.
FIRM-Bench 벤치마크 도입
이미지 편집 및 생성 모델의 비평가 성능을 정밀하게 측정할 수 있는 새로운 벤치마크를 제안하여 인간의 판단과 모델 점수 간의 상관관계를 검증했다.
Base-and-Bonus 보상 전략 제안
편집 시 일관성과 실행력을 동시에 고려하는 CME와 생성 시 품질과 정렬을 조화시키는 QMA 기법을 포함한 새로운 강화학습 보상 전략을 통해 모델 성능을 최적화했다.
방법론
FIRM은 이미지 편집의 실행력과 일관성을 평가하는 FIRM-Edit-8B와 지시 이행 능력을 평가하는 FIRM-Gen-8B 보상 모델을 기반으로 합니다. 강화학습 단계에서는 'Base-and-Bonus' 전략을 사용하여, 편집에서는 일관성 변조 실행(CME)을, 생성에서는 품질 변조 정렬(QMA)을 통해 다중 목표를 효과적으로 최적화합니다.
주요 결과
FIRM-Bench 평가 결과, 제안된 보상 모델은 기존 지표 대비 인간의 판단과 더 높은 일치도를 보였다. FIRM-Qwen-Edit와 FIRM-SD3.5 모델은 기존 일반 모델들을 상회하는 충실도와 지시 준수 성능을 기록하며 이미지 생성 및 편집 분야에서 새로운 성능 기준을 제시했다.
시사점
이미지 생성 및 편집 모델의 고질적인 문제인 환각과 지시 불이행을 보상 모델의 개선을 통해 해결할 수 있음을 보여준다. 실무적으로는 더 정교한 이미지 편집 에이전트 개발이나 고품질 텍스트-이미지 생성 서비스의 품질 관리 지표로 직접 활용될 수 있다.
키워드
섹션별 상세
FIRM 프레임워크 및 고품질 데이터셋 구축
FIRM-Bench 벤치마크 도입
Base-and-Bonus 보상 전략 제안
AI 요약 · 북마크 · 개인 피드 설정 — 무료