핵심 요약
기존의 이미지 정제 방식은 특정 부분만 고치는 '편집'에 집중하여 전체적인 조화나 복잡한 지시사항 반영에 한계가 있었다. 이 논문은 이미지를 처음부터 다시 그리는 '재생성' 방식을 도입하여 프롬프트와 이미지 사이의 불일치를 획기적으로 해결하고 시각적 품질을 높이는 새로운 방향을 제시한다.
왜 중요한가
기존의 이미지 정제 방식은 특정 부분만 고치는 '편집'에 집중하여 전체적인 조화나 복잡한 지시사항 반영에 한계가 있었다. 이 논문은 이미지를 처음부터 다시 그리는 '재생성' 방식을 도입하여 프롬프트와 이미지 사이의 불일치를 획기적으로 해결하고 시각적 품질을 높이는 새로운 방향을 제시한다.
핵심 기여
RvR(Refinement via Regeneration) 프레임워크 제안
이미지 정제를 국소적 편집이 아닌 조건부 재생성 문제로 재정의하여 수정 가능한 공간을 확장하고 프롬프트와의 의미적 일치도를 극대화했다.
중간 편집 지시문 제거를 통한 오류 누적 방지
기존 방식이 의존하던 모호한 편집 지시문 단계를 생략하고 타겟 프롬프트와 초기 이미지의 의미 토큰을 직접 활용하여 정제 과정의 정확도를 높였다.
독립적 샘플 기반의 데이터 구축 파이프라인
픽셀 단위의 일관성을 강제하는 대신 동일 프롬프트에서 생성된 다양한 품질의 이미지 쌍을 활용해 모델이 의미적 교정에 집중하도록 학습시켰다.
핵심 아이디어 이해하기
기존의 이미지 정제는 Transformer 기반 모델이 생성한 이미지에서 틀린 부분만 골라 고치는 '부분 수정' 방식이었다. 하지만 '벤치 하나 더 추가해줘' 같은 단순한 지시어로는 이미지 전체의 구도나 조명을 자연스럽게 바꾸기 어렵고, 기존 픽셀을 최대한 보존하려는 제약 때문에 수정 범위가 극도로 제한되는 문제가 있었다.
RvR은 이 문제를 해결하기 위해 이미지를 고치는 대신, 초기 이미지에서 추출한 핵심 의미(Semantic Tokens)와 원래 프롬프트를 결합해 이미지를 '다시 그리는' 방식을 택한다. 이는 마치 밑그림의 구도는 참고하되 새 도화지에 다시 그려서 형태적 제약 없이 완벽한 결과물을 만드는 것과 같다.
결과적으로 모델은 기존 이미지의 불필요한 픽셀 정보에 얽매이지 않고 프롬프트가 요구하는 복잡한 관계나 속성을 자유롭게 구현할 수 있게 된다. 실험 결과 Geneval 벤치마크에서 0.78에서 0.91로 성능이 크게 향상되며 복잡한 프롬프트 추종 능력을 입증했다.
관련 Figure

초기 이미지에서 프롬프트와 맞지 않던 부분(예: 날개 없는 코끼리, 혼란스러운 자유의 여신상 등)이 RvR을 통해 의미적으로 완벽하게 교정된 결과를 시각적으로 증명한다.
RvR 정제 전후의 이미지 품질 비교 예시
방법론
RvR은 통합 멀티모달 모델(UMM) 내에서 정제를 조건부 생성 과정으로 수행한다. 초기 이미지 I에서 ViT 인코더를 통해 고수준 의미 특징인 Z_ViT를 추출하고, 이를 타겟 프롬프트 T_prompt와 결합하여 모델 M의 입력으로 사용한다. [초기 이미지 → ViT 인코더 → 의미 토큰 추출 → 프롬프트와 결합 → 모델 입력]
학습 시에는 Rectified Flow(RF) 목적 함수를 사용한다. 노이즈 x1과 타겟 이미지 x0 사이의 선형 보간인 xt = (1-t)x0 + tx1을 생성하고, 모델이 속도 필드 vθ를 예측하도록 훈련한다. [노이즈 섞인 이미지와 조건 토큰 입력 → 속도 필드 예측 → 예측값과 실제 차이 계산 → 가중치 업데이트] 이때 기존 편집 방식과 달리 픽셀 정보를 담은 VAE 토큰을 조건에서 제외하여 수정 자유도를 확보한다.
데이터 구축은 LLM이 생성한 프롬프트를 기반으로 여러 T2I 모델이 독립적으로 이미지를 생성하게 한 뒤, VLM(Gemini 등)을 통해 프롬프트와 잘 맞는 이미지(Aligned)와 맞지 않는 이미지(Misaligned)를 선별하여 학습 쌍을 구성한다.
관련 Figure

RvE는 중간에 편집 지시문을 생성하고 픽셀 일관성을 유지해야 하는 반면, RvR은 프롬프트와 의미 토큰을 직접 사용하여 더 넓은 수정 공간을 확보함을 보여준다.
기존 편집 기반 방식(RvE)과 제안된 재생성 기반 방식(RvR)의 파이프라인 비교 다이어그램
주요 결과
RvR은 세 가지 주요 벤치마크에서 기존 SOTA 모델들을 압도했다. Geneval에서 0.91을 기록하여 베이스 모델인 BAGEL(0.82) 및 기존 편집 기반 방식인 Uni-CoT(0.83)보다 높은 성능을 보였다. DPGBench에서는 87.21, UniGenBench++에서는 77.41을 달성하며 복잡한 의미적 정렬 능력을 증명했다.
Ablation Study를 통해 편집 데이터나 VAE 특징을 추가하는 것이 오히려 성능을 저하시킨다는 점을 확인했다. VAE 특징을 포함했을 때 DPGBench 점수가 87.21에서 86.41로 하락했는데, 이는 픽셀 수준의 보존 제약이 의미적 교정을 방해함을 시사한다. 또한 다회차 정제(Multi-round)를 통해 첫 회차에서 해결되지 않은 오류를 지속적으로 개선할 수 있음을 정성적으로 보여주었다.
관련 Figure

Geneval, DPGBench, UniGenBench++ 모든 지표에서 RvR이 베이스 모델 및 기존 편집 기반(RvE) 방식들을 일관되게 앞지르는 것을 보여준다. 특히 UniGenBench++에서 큰 폭의 성능 향상이 두드러진다.
주요 벤치마크에서 RvR과 기존 방식들의 성능을 비교한 막대 그래프
기술 상세
RvR은 Unified Multimodal Model(UMM) 아키텍처를 기반으로 하며, 이미지 이해와 생성을 하나의 트랜스포머 백본에서 처리한다. 핵심 차별점은 정제 단계를 'Instruction Generation + Image Editing'의 2단계 구조에서 'Direct Conditional Generation'의 1단계 구조로 단순화한 것이다. 이를 통해 중간 지시문 생성 시 발생하는 정보 손실과 오류 누적 문제를 원천적으로 차단했다.
수학적으로는 기존 RvE가 P(I' | T_edit, Z_ViT, Z_VAE)를 모델링했다면, RvR은 P(I' | T_prompt, Z_ViT)를 직접 모델링한다. 저수준 정보를 담은 Z_VAE를 제거함으로써 모델이 픽셀 보존(Appearance Preservation)보다 의미적 정렬(Semantic Alignment)에 우선순위를 두도록 유도했다. 학습 시에는 100k의 정제 샘플, 60k의 일반 T2I 샘플, 1k의 이미지 이해 샘플을 2:1:1 비율로 섞어 모델의 다중 작업 능력을 유지했다.
관련 Figure

훈련 시에는 시스템 프롬프트, 초기 이미지의 ViT 토큰, 타겟 이미지의 노이즈 섞인 VAE 토큰을 입력받아 속도를 예측하고, 추론 시에는 다단계 디노이징을 통해 최종 이미지를 생성하는 과정을 상세히 설명한다.
RvR의 전체 훈련 및 추론 파이프라인 구조도
한계점
논문은 RvR이 초기 이미지의 구도를 대체로 유지하지만, 픽셀 수준의 엄격한 보존이 필요한 특정 편집 작업(예: 특정 인물의 얼굴 특징 유지)에는 적합하지 않을 수 있음을 명시했다. 또한 재생성 방식 특성상 편집 방식보다 연산 자원이 더 많이 소요될 가능성이 있다.
실무 활용
고품질 이미지 생성이 필요한 디자인 및 콘텐츠 제작 분야에서 생성된 결과물의 디테일을 프롬프트에 맞춰 정교하게 다듬는 도구로 활용 가능하다.
- AI 이미지 생성 서비스의 '다시 그리기' 또는 '품질 개선' 기능
- 복잡한 구도나 다수의 객체가 포함된 광고 이미지의 정밀 교정
- 초기 시안의 구도는 유지하면서 세부 속성(색상, 재질, 위치)만 프롬프트로 변경
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.