PRISM: 확산 기반 텍스트 이미지 초해상도를 위한 Prior Rectification 및 불확실성 인식 구조 모델링

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

저화질 입력에서 텍스트 조건이 불안정하고, 글로벌 prior가 로컬 stroke 경계까지 완전히 결정하지 못한다는 두 가지 문제를 해결한다. FMPR로 privileged prior 공간으로의 안정적 흐름을 학습하고, SURE로 로컬 구조를 불확실성 하에 보정함으로써 단일 스텝 diffusion으로 텍스트의 읽기 가능성과 glyph 일치성을 함께 향상시키며, 밀리초 수준의 추론 속도를 달성한다.

왜 중요한가

저화질 입력에서 텍스트 조건이 불안정하고, 글로벌 prior가 로컬 stroke 경계까지 완전히 결정하지 못한다는 두 가지 문제를 해결한다. FMPR로 privileged prior 공간으로의 안정적 흐름을 학습하고, SURE로 로컬 구조를 불확실성 하에 보정함으로써 단일 스텝 diffusion으로 텍스트의 읽기 가능성과 glyph 일치성을 함께 향상시키며, 밀리초 수준의 추론 속도를 달성한다.

핵심 기여

PRISM의 핵심 프레임워크

FMPR과 SURE를 결합한 단일 스텝 확산 기반 Text-SR 프레임워크를 제시한다. FMPR은 paired LQ/HQ latents로 구성된 privileged prior 공간으로의 흐름을 학습하고, SURE는 불확실성 인지 하에 로컬 stroke 구조를 보정한다.

FMPR: Privileged Prior Rectification

Privileged Conditional Prior(c⋆)를 구성하고, LQ-only 경로로 이 공간으로의 수송 경로를 학습하는 flow-matching 기반 prior rectification 모듈을 도입했다. 이로써 degradation에 강한 텍스트 조건을 얻고 restoration backbone에 주입한다.

SURE: Structure-guided Uncertainty-aware Residual Encoder

SURE는 Fη로부터 얻은 불확실성 기반 구조 큐를 이용해 다중 레벨 잔차를 예측하고, 잔차를 UNet의 skip 연결에 주입하여 로컬 stroke topology와 경계 정합을 개선한다. Sobel로 생성된 경계 맵 mh와의 지도 학습도 포함한다.

단일 스텝 inference 및 효율성

FMPR의 Euler discretization(K=16)과 최종 1-step diffusion으로 inference를 수행해 ms 단위의 속도를 달성한다. 128×512 해상도에서 0.08초 수준의 추론 시간이 보고되었다.

데이터 구성과 실험

BTL 데이터셋을 구축해 실세계(real)와 합성(synthetic) 텍스트 라인을 균형 있게 포함하고, RealCE-val에서 Real-world 일반화 성능을 평가한다.

핵심 아이디어 이해하기

출발점은 텍스트 SR에서의 거시적 텍스트 조건의 신뢰성 불확실성과 국부 stroke 경계의 불확실성이다. 기존 방법은 degraded 입력에서 직접 텍스트 조건을 추정해 restoration과 조건을 함께 최적화해, 경계가 왜곡되거나 문자인식이 잘못될 수 있다. PRISM은 두 가지로 나누어 해결한다. 1) FMPR은 paired LQ/HQ latents로 구성된 privileged prior 공간으로의 흐름을 학습해, degraded 입력에서 Reliable한 전역 텍스트 지시를 얻고 이를 restoration 백본에 주입한다. 2) SURE는 구조 정보를 불확실성에 따라 샘플링하고, 이 샘플링된 구조 cue ps를 이용해 로컬 경계 정보를 잔차로 보정하되, 높은 불확실성 영역은 과도한 경계 추정을 피하도록 한다. 이로써 global prior rectification과 local structure refinement를 단일 diffusion-pass로 달성한다.

방법론

단계1: FMPR(Privileged Prior Pathway)에서 paired LQ/HQ latents를 인코딩해 c⋆를 생성하고, c⋆를 이용해 z⋅⋯h를 재구성한다. Lpriv/Lfm 손실을 통해 privileged prior 분포와 recovered prior 간의 거리를 최소화한다. 단계2: Recoverable Prior Learning에서 LQ만 이용해 cl를 얻고, velocity field VFM를 통해 cl에서 ĉ로의 경로를 수치적으로 적분한다. ĉ를 텍스트 조건으로 사용해 ẑrh = Uθr(zl, ĉ)로 복원. Lstage1은 Limg + Lfm으로 구성되며, ĉ와 c⋆의 차이를 추가로 최소화한다. Stage2: SURE를 고정한 채 두 번째 학습을 수행한다. Fη는 µ, σ를 예측해 불확실한 구조 cue를 샘플링하고 ps로 매핑한다. Cη는 zl, ĉ, ps를 받아 잔차 R = {ri}를 예측, 이 R을 Uθ¯의 skip 연결에 주입한다. mh는 Sobel로 얻은 경계 타깃이며, Lstage2는 Limg + Lstr + KL 제약으로 구성된다. 1-step diffusion에서 FMPR의 prior 정제와 SURE의 구조 보정이 서로 보완적으로 작동한다.

주요 결과

BTL-test의 ×2에서 PRISM은 PSNR 24.53, LPIPS 0.1514, FID 6.14, ACC 59.78%, NED 0.8220를 기록했고, ×4에서는 PSNR 22.08, LPIPS 0.2314, FID 12.57, ACC 42.12%, NED 0.6644를 달성했다. RealCE-val의 ×2에서 PRISM은 PSNR 21.00, LPIPS 0.1372, FID 33.71, ACC 84.28%, NED 0.9442를 보였고, ×4에서 PSNR 19.89, LPIPS 0.2043, FID 47.83, ACC 65.19%, NED 0.8521를 보였다. BTL-test에서 LPIPS/FID/NED에서 최상, ×4에서 ACC까지 종합적으로 우수한 성능을 보이며, RealCE-val에서도 PSNR/FID 등 다수 지표에서 강한 성능을 보임.

기술 상세

전체 아키텍처는 VAE 인코더를 통한 zl, zh를 이용해 FMPR의 Privileged Prior Pathway(Ep)와 Recoverable Prior Pathway(Elq)를 구성한다. Ep은 zl과 zh를 결합한 입력에서 c⋆를 생성하고, ẑ⋆h = Uθp(zl, c⋆)로 재구성한다. Lpriv = ||x̂⋆ − xh||1 + λlpips LLPIPS(x̂⋆, xh)를 최소화한다. Elq는 LQ_latent zl만으로 cl를 얻고, velocity field VFM은 ĉ의 도출 경로를 따라 c⋆로의 transport를 학습한다. ĉ는 ẑrh의 조건으로 사용된다. Stage2에서 SURE는 Fη를 통해 µ, σ를 예측하고 zs = µ + σ ⊙ ε를 샘플링한다. ps = Π(zs), mh = Sob el(xh)을 이용한 경계 타깃을 생성하고, Cη는 zl, ĉ, ps를 입력으로 다중 잔차 R를 예측한다. ẑsh = Uθ¯(zl, ĉ; R) 및 x̂sh = Dvae(ẑsh)로 복원한다. Lstage2는 Limg + λstr Lstr + λkl KL(N(µ,σ^2) || N(0,I))를 합산한다. FMPR은 Euler 분할(K=16)로 ĉ를 얻고, 최종 1-step diffusion으로 복원을 수행한다.

실무 활용

crop-level Text-SR 파이프라인에 PRISM을 삽입해 저해상도 텍스트 이미지의 가독성 및 OCR 여부를 개선한다.

문서 스캐닝 및 아카이빙에서 텍스트 영역의 해상도 개선
모바일 번역 전처리에서 텍스트 읽기 향상
OCR 파이프라인 전처리에서 인식 정확도 향상
간판/도로 표지판 인식의 로컬 구조 보정
역사적 문서의 텍스트 재현

코드 공개 여부: 공개

코드 저장소 보기

키워드

diffusion-based Text-SRFlow-Matching Prior RectificationFMPRStructure-guided Uncertainty-aware Residual EncoderSUREprivileged priorone-step diffusion