핵심 요약
최신 이미지 생성 모델들도 작은 텍스트나 복잡한 로고 등 국소적인 세부 사항에서 왜곡이 발생하는 '로컬 디테일 붕괴' 문제를 겪고 있다. 이 논문은 배경을 전혀 건드리지 않으면서 사용자가 지정한 특정 영역만 고해상도로 정밀하게 복구하는 기술을 통해 이커머스나 광고 등 고정밀 이미지가 필요한 실무 분야의 한계를 해결한다.
왜 중요한가
최신 이미지 생성 모델들도 작은 텍스트나 복잡한 로고 등 국소적인 세부 사항에서 왜곡이 발생하는 '로컬 디테일 붕괴' 문제를 겪고 있다. 이 논문은 배경을 전혀 건드리지 않으면서 사용자가 지정한 특정 영역만 고해상도로 정밀하게 복구하는 기술을 통해 이커머스나 광고 등 고정밀 이미지가 필요한 실무 분야의 한계를 해결한다.
핵심 기여
영역 특화 이미지 정밀화 프레임워크 정의
배경 픽셀을 엄격하게 유지하면서 사용자 지정 영역(마스크 또는 바운딩 박스)의 세부 사항만 복구하는 영역 특화 이미지 정밀화(Region-Specific Image Refinement) 문제를 새롭게 정의하고 이를 해결하는 RefineAnything 시스템을 구축했다.
Focus-and-Refine 전략 도입
전체 이미지를 고정된 해상도로 처리하는 대신, 대상 영역을 크롭하여 해상도 예산을 집중시킨 뒤 정밀화하여 다시 붙여넣는 전략을 통해 VAE의 정보 손실 문제를 해결하고 복구 품질을 획기적으로 높였다.
Boundary Consistency Loss 제안
정밀화된 영역을 기존 배경에 다시 붙여넣을 때 발생할 수 있는 경계면의 이질감과 아티팩트를 최소화하기 위해 경계 영역의 감독 학습을 강화하는 새로운 손실 함수를 도입했다.
Refine-30K 데이터셋 및 RefineEval 벤치마크 구축
참조 기반 및 참조 미포함 정밀화 학습을 위한 3만 개의 고품질 샘플 데이터셋과 정밀도 및 배경 일관성을 동시에 평가할 수 있는 새로운 벤치마크를 공개했다.
핵심 아이디어 이해하기
대부분의 확산 모델은 이미지를 VAE(Variational Autoencoder)를 통해 압축된 잠재 공간으로 변환하여 처리한다. 하지만 전체 이미지 해상도가 고정된 상태에서 아주 작은 영역(예: 신발의 로고)은 할당되는 픽셀 수가 너무 적어 VAE 인코딩 과정에서 핵심적인 세부 정보가 소실되는 현상이 발생한다. 이는 마치 멀리 있는 작은 글자를 사진으로 찍으면 확대해도 글자가 뭉개져 보이는 것과 같은 원리이다.
이 논문은 '정보의 양은 같더라도 해상도 예산을 어디에 집중하느냐에 따라 복구 품질이 달라진다'는 직관에 주목한다. 작은 영역을 미리 잘라내어(Crop) 전체 해상도 크기로 키운(Resize) 뒤 모델에 입력하면, VAE가 해당 영역의 미세한 특징을 훨씬 더 정밀하게 포착할 수 있게 된다. 이는 돋보기를 대고 세밀한 부분을 다시 그리는 것과 유사한 방식이다.
결과적으로 동일한 모델 파라미터를 사용하더라도 입력 데이터의 파라미터화 방식을 바꿈으로써 텍스트의 획이나 로고의 복잡한 구조를 깨짐 없이 복구할 수 있게 된다. 정밀화된 결과물은 부드러운 마스크 블렌딩을 통해 원래 배경에 자연스럽게 통합되어 전체적인 이미지의 일관성을 유지한다.
관련 Figure

동일한 VAE 해상도 예산 하에서 국소 영역을 크롭하여 리사이즈한 후 처리했을 때(Better Result) 텍스트의 가독성이 훨씬 뛰어남을 보여준다. 이는 논문의 핵심 아이디어인 해상도 재할당의 효과를 직접적으로 증명한다.
Focus-and-Refine 전략의 필요성을 보여주는 비교 실험으로, 전체 이미지 처리와 국소 영역 크롭 후 처리의 품질 차이를 시각화했다.
방법론
RefineAnything은 Qwen2.5-VL 멀티모달 인코더와 MMDiT 아키텍처를 기반으로 설계됐다. 전체 프로세스는 크게 세 단계로 나뉜다. 첫째, 사용자가 제공한 마스크나 바운딩 박스를 기반으로 정밀화가 필요한 영역을 식별하고 여백(Margin)을 포함하여 크롭한다. 둘째, 크롭된 영역을 모델의 기본 입력 해상도(예: 1024x1024)로 리사이즈하여 모델에 입력함으로써 국소 영역에 대한 해상도 밀도를 극대화한다.
모델 내부에서는 고수준 멀티모달 컨텍스트(VLM)와 저수준 시각 컨텍스트(VAE Latents)가 결합되어 작동한다. 입력 이미지 I와 참조 이미지 I_ref, 텍스트 지시어 y가 주어지면 Qwen2.5-VL 인코더를 통해 컨디셔닝 토큰 c를 생성한다. [입력 이미지와 텍스트 → VLM 인코딩 → 특징 벡터 c 생성] 과정을 거쳐 모델은 어떤 부분을 어떻게 고쳐야 할지 이해한다. 동시에 VAE 인코더는 이미지의 세부 질감을 잠재 공간 벡터 z로 변환하여 MMDiT 백본에 전달한다.
학습 시에는 Boundary Consistency Loss(L_boundary)를 사용한다. 이는 편집 영역의 경계 밴드 B_c를 정의하고 해당 부분의 손실값에 가중치 α를 곱해 계산한다. [손실 지도 ℓ_base와 경계 마스크 B_c 입력 → ℓ_base ⊙ (1 + αB_c) 연산 → 가중치 적용된 손실값 출력] 과정을 통해 모델은 편집된 부분과 배경이 만나는 지점을 더 정교하게 학습하여 시각적 불연속성을 제거한다.
관련 Figure

BBox 계산, 크롭 및 리사이즈, 정밀화 모델 실행, 그리고 마지막에 Dilate와 Blur를 적용한 블렌디드 마스크로 배경과 합성하는 전체 워크플로우를 상세히 나타낸다.
영역 식별, 집중 정밀화, 부드러운 마스크를 이용한 재결합으로 이어지는 3단계 프로세스 개요도이다.
주요 결과
RefineEval 벤치마크 실험 결과, RefineAnything은 참조 기반 정밀화에서 기존 SOTA 모델인 Kontext 대비 MSE를 0.040에서 0.020으로 50% 감소시켰으며, LPIPS 역시 0.264에서 0.155로 41% 개선했다. 특히 배경 일관성 지표인 MSE_bg와 LP_bg에서 0.000을 기록하며 편집 영역 외의 배경을 완벽하게 보존함을 입증했다.
참조 이미지가 없는 텍스트 기반 정밀화에서도 시각적 품질(VQ), 자연스러움(Nat.), 세부 충실도(Det.) 등 모든 주관적 평가 지표에서 가장 높은 점수를 획기적으로 획득했다. 특히 Qwen-Edit 대비 시각적 품질에서 +0.725점의 향상을 보였다.
Ablation Study를 통해 Focus-and-Refine 전략의 유효성도 확인됐다. 포커싱 단계를 제거했을 때 MSE가 0.020에서 0.021로 상승하고 SSIM이 0.591에서 0.578로 하락하는 등 국소 디테일 복구 성능이 눈에 띄게 저하되는 것이 수치로 증명됐다.
관련 Figure

로고, 신발 디자인, 얼굴 등 미세한 영역에서 타 모델들은 배경이 변하거나 디테일이 뭉개지는 반면, 제안 모델은 원본의 특징을 유지하면서도 깨끗하게 복구함을 시각적으로 보여준다.
OminiGen2, BAGEL, Kontext 등 기존 모델들과 RefineAnything의 참조 기반 정밀화 결과를 비교한 사진이다.

한자 텍스트 복구, 인물 얼굴 정밀화 등 고난도 작업에서 타 모델 대비 월등한 선명도와 지시어 준수 능력을 보여주며, 특히 배경 왜곡이 전혀 없음을 확인할 수 있다.
참조 이미지 없이 텍스트 지시어만으로 수행한 정밀화 결과 비교 사진이다.
기술 상세
RefineAnything은 MMDiT(Multi-Modal Diffusion Transformer) 구조를 채택하여 텍스트와 이미지 정보를 병렬적으로 처리한다. 기존의 UNet 기반 모델들이 전역적인 특징 추출에는 강하지만 국소적인 세부 제어에 한계를 보였던 점을 개선하기 위해, 모든 레이어에서 멀티모달 토큰과 VAE 잠재 토큰이 상호작용하도록 설계됐다.
모델은 Qwen-Image-Edit을 베이스라인으로 하여 LoRA(Low-Rank Adaptation) 기법으로 파인튜닝되었다. 특히 Attention 프로젝션 레이어(to_q, to_k, to_v, to_out)에 rank=256의 LoRA를 적용하여 효율적인 학습을 수행했다. 학습 과정에서는 Flow-matching 목적 함수를 사용하여 노이즈 제거 과정을 최적화했다.
데이터 구축 단계에서는 VLM(Gemini3)과 SAM3를 결합한 자동화 파이프라인을 사용했다. VLM이 이미지 내의 주요 객체를 식별하고 바운딩 박스를 생성하면, SAM3가 이를 정밀한 인스턴스 마스크로 변환한다. 이후 의도적인 열화(Degradation)를 가한 뒤 이를 복구하도록 학습시킴으로써 실제 환경에서 발생할 수 있는 다양한 디테일 붕괴 상황에 대응할 수 있도록 했다.
관련 Figure

입력 이미지, 참조 이미지, 공간 마스크, 프롬프트가 각각 어떻게 인코딩되어 확산 모델의 백본인 MMDiT 블록으로 전달되는지 설명한다. 특히 VAE 잠재 공간과 VLM 토큰이 병렬로 입력되는 구조가 핵심이다.
RefineAnything의 아키텍처 다이어그램으로, Qwen2.5-VL 인코더와 MMDiT 블록, VAE 인코더의 결합 구조를 보여준다.
한계점
이 모델은 사용자가 지정한 영역 내에서만 작동하므로, 영역 지정이 잘못되거나 너무 광범위할 경우 Focus-and-Refine의 이점이 줄어들 수 있다. 또한 매우 복잡한 텍스트나 고도로 추상적인 로고의 경우 참조 이미지 없이는 완벽한 복구가 어려울 수 있다는 점이 명시되어 있다.
실무 활용
이 모델은 이미지 생성 결과물에서 특정 부분만 수정하고 싶은 디자이너나 마케터에게 매우 유용하다. 특히 텍스트나 로고가 중요한 광고 이미지 제작 공정에서 수작업 리터칭 시간을 대폭 줄여줄 수 있다.
- 이커머스 제품 사진에서 왜곡된 브랜드 로고나 제품 라벨 텍스트 복구
- 생성된 인물 이미지에서 손가락이나 이목구비 등 미세한 디테일 정밀 수정
- 저해상도 이미지의 특정 부분(간판, 표지판 등)을 고해상도로 업스케일링 및 가독성 개선
- 참조 이미지를 활용하여 특정 소품의 디자인을 배경 변화 없이 교체
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.