WeEdit: 텍스트 중심 이미지 편집을 위한 데이터셋, 벤치마크 및 글리프 가이드 프레임워크

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존 이미지 편집 모델이 텍스트를 수정할 때 글자가 깨지거나 엉뚱한 내용을 생성하는 고질적인 문제를 해결했다. 텍스트의 위치와 모양을 미리 정의하는 글리프(Glyph) 가이드와 다목적 강화학습을 도입하여, 포스터나 메뉴판 같은 이미지 속 글자를 배경 손상 없이 정교하게 수정하거나 번역할 수 있는 길을 열었다.

왜 중요한가

핵심 기여

HTML 기반 자동 데이터 생성 파이프라인

웹페이지나 앱 화면 같은 구조화된 이미지를 HTML로 변환 후 텍스트를 수정하고 다시 렌더링하는 방식을 통해, 배경이 완벽히 보존된 33만 개의 고품질 학습 쌍을 구축했다.

글리프 가이드 지도 미세 조정(SFT)

시각 언어 모델(VLM)이 텍스트의 위치와 내용을 먼저 예측하고 이를 시각적 가이드인 글리프 이미지로 만들어 확산 모델에 주입함으로써 텍스트 렌더링의 정확도를 획기적으로 높였다.

다목적 강화학습(RL) 프레임워크

지시 이행도, 텍스트 선명도, 배경 보존, 상대적 품질 등 4가지 핵심 지표를 동시에 최적화하는 보상 함수를 설계하여 픽셀 수준의 손실 함수가 놓치기 쉬운 시각적 품질을 극대화했다.

대규모 다국어 벤치마크 구축

한국어를 포함한 15개 언어와 8가지 편집 작업을 아우르는 표준 평가 체계를 마련하여 모델의 범용성과 실무 활용 가능성을 엄격하게 검증했다.

핵심 아이디어 이해하기

기존 확산 모델(Diffusion Model)은 텍스트 프롬프트를 이미지로 변환하는 데 뛰어나지만, 이미지 내 특정 텍스트를 정교하게 수정하는 데는 한계가 있다. 이는 모델이 텍스트의 정확한 위치(Spatial Prior)와 글자 모양(Glyph)을 명시적으로 이해하지 못한 채 픽셀을 생성하기 때문에 발생하며, 결과적으로 글자가 뭉개지거나 배경이 오염되는 현상이 나타난다. WeEdit은 이 문제를 해결하기 위해 글리프 가이드라는 중간 단계의 시각적 지도를 도입한다. 먼저 시각 언어 모델(VLM)이 편집 지시사항을 분석해 텍스트가 들어갈 좌표와 내용을 결정하고, 이를 검은 배경에 흰 글자가 적힌 이미지 형태로 렌더링한다. 이 글리프 이미지는 확산 모델의 입력값과 결합되어, 모델이 어디에 어떤 글자를 그려야 할지 명확한 가이드를 제공받게 된다. 또한 단순한 픽셀 오차를 줄이는 학습을 넘어 강화학습(Reinforcement Learning)을 통해 인간이 보기에 좋은 품질을 추구한다. 지시를 잘 따랐는지, 글자가 선명한지, 수정하지 않는 배경이 그대로 유지되었는지를 평가하는 다차원 보상 모델을 통해 모델의 최종 출력물을 정교하게 다듬는다.

방법론

데이터 구축은 구조화된 데이터와 비구조화된 데이터 두 경로로 진행된다. 구조화된 데이터는 VLM을 이용해 이미지를 HTML/CSS로 변환한 뒤 텍스트 요소를 수정하고 Playwright 브라우저로 다시 렌더링하여 배경이 완벽히 보존된 학습 쌍을 생성한다. 글리프 가이드 SFT 단계에서는 Qwen3-VL 모델이 소스 이미지와 지시문을 입력받아 타겟 텍스트의 바운딩 박스와 내용을 예측한다. [이미지+지시문 → VLM → 좌표 및 텍스트 → 렌더링 → 글리프 이미지] 과정을 거쳐 생성된 가이드는 MM-DiT 아키텍처의 입력 토큰과 결합되어 LoRA를 통해 학습된다. 강화학습 단계는 DiffusionNFT 프레임워크를 기반으로 하며 온라인 강화학습을 수행한다. 보상 함수는 지시 이행, 텍스트 선명도, 배경 보존, 상대적 품질의 가중합으로 계산된다. [생성 이미지 → 4개 보상 모델 → 개별 점수 합산 → 최종 보상값] 순으로 계산되어 모델의 정책을 업데이트한다. 보상 모델은 Softmax를 적용하여 [각 점수 토큰의 로짓 → 지수 함수 연산 및 정규화 → 확률 분포 기댓값 → 연속적인 보상 점수]를 산출함으로써 학습의 안정성을 확보한다.

주요 결과

Bilingual 벤치마크에서 WeEdit-RL 모델은 Overall 지시 이행도(IA) 7.47, 텍스트 선명도(TC) 8.19, 배경 보존(BP) 9.01을 기록하며 오픈소스 모델 중 압도적인 1위를 차지했다. 이는 베이스 모델인 Qwen-Image-Edit-2509 대비 IA 기준 3.98점 향상된 수치이며, 대부분의 상용 모델을 능가하는 성과이다. Multilingual 벤치마크에서도 한국어, 아랍어, 태국어 등 15개 언어에 대해 강건한 성능을 보였다. 특히 Rearrange(재배치)와 Translate(번역) 같이 복잡한 작업에서 기존 모델들이 1.8 IA 이하의 낮은 점수로 실패하는 것과 달리, WeEdit은 높은 정확도를 유지하며 다국어 확장성을 입증했다. Ablation Study 결과 SFT만 적용했을 때보다 RL을 추가했을 때 모든 지표에서 유의미한 상승이 확인되었다. 특히 별도의 보상 모델(SRM)과 참조 이미지(RI)를 활용한 방식이 모델의 성능 한계를 돌파하는 데 핵심적인 역할을 했음이 확인됐다.

기술 상세

아키텍처는 MM-DiT(Multi-modal Diffusion Transformer)를 기반으로 하며 LoRA(Low-Rank Adaptation)를 사용하여 효율적으로 파인튜닝된다. 입력은 소스 이미지, 지시문, 그리고 VLM이 생성한 글리프 이미지의 결합으로 구성된다. 글리프 생성 과정에서 VLM은 Detect-and-Plan 전략을 사용한다. 먼저 원본 이미지의 텍스트 영역을 탐지하고, 지시문에 따라 타겟 텍스트의 위치와 내용을 계획한다. 이후 Python Pillow 라이브러리를 이용해 512x512 해상도의 흑백 글리프 이미지를 렌더링한다. 강화학습 보상 모델은 Qwen3-VL-235B를 활용하며 Logit-Weighted Continuous Scoring 방식을 채택한다. 0~9점 사이의 점수 토큰에 대해 Softmax를 적용하여 기댓값을 산출함으로써 단일 정수 보상 신호의 희소성 문제를 해결하고 부드러운 학습 곡선을 유도한다. 데이터셋은 HTML 기반의 구조화된 데이터 17만 개와 Edit-Verify-Retry 파이프라인을 통한 비구조화된 데이터 16만 개로 구성되어 복잡한 배경에 대한 대응력을 높였다.

한계점

기존 상용 모델인 Gemini-3-Pro-Image의 성능에는 아직 미치지 못하며, 매우 복잡한 배경과 텍스트가 얽힌 비구조화된 데이터에서는 여전히 개선의 여지가 존재한다.

실무 활용

포스터, 인포그래픽, 웹 UI 등 텍스트가 포함된 이미지의 내용을 정교하게 수정하거나 현지화하는 실무에 즉시 활용 가능하다.

다국어 마케팅 배너의 자동 번역 및 레이아웃 유지
인포그래픽 내 수치 데이터나 텍스트 설명 업데이트
이미지 내 오타 수정 및 폰트 스타일 변경
웹사이트 스크린샷의 텍스트 내용 개인화

코드 공개 여부: 공개

코드 저장소 보기

키워드

Text-centric Image Editing(텍스트 중심 이미지 편집)Glyph-guided(글리프 가이드)MM-DiT(멀티모달 확산 트랜스포머)Reinforcement Learning(강화학습)VLM(시각 언어 모델)