TL;DR
저화질 입력에서 텍스트 조건이 불안정하고, 글로벌 prior가 로컬 stroke 경계까지 완전히 결정하지 못한다는 두 가지 문제를 해결한다. FMPR로 privileged prior 공간으로의 안정적 흐름을 학습하고, SURE로 로컬 구조를 불확실성 하에 보정함으로써 단일 스텝 diffusion으로 텍스트의 읽기 가능성과 glyph 일치성을 함께 향상시키며, 밀리초 수준의 추론 속도를 달성한다.
왜 중요한가
저화질 입력에서 텍스트 조건이 불안정하고, 글로벌 prior가 로컬 stroke 경계까지 완전히 결정하지 못한다는 두 가지 문제를 해결한다. FMPR로 privileged prior 공간으로의 안정적 흐름을 학습하고, SURE로 로컬 구조를 불확실성 하에 보정함으로써 단일 스텝 diffusion으로 텍스트의 읽기 가능성과 glyph 일치성을 함께 향상시키며, 밀리초 수준의 추론 속도를 달성한다.
핵심 기여
PRISM의 핵심 프레임워크
FMPR과 SURE를 결합한 단일 스텝 확산 기반 Text-SR 프레임워크를 제시한다. FMPR은 paired LQ/HQ latents로 구성된 privileged prior 공간으로의 흐름을 학습하고, SURE는 불확실성 인지 하에 로컬 stroke 구조를 보정한다.
FMPR: Privileged Prior Rectification
Privileged Conditional Prior(c⋆)를 구성하고, LQ-only 경로로 이 공간으로의 수송 경로를 학습하는 flow-matching 기반 prior rectification 모듈을 도입했다. 이로써 degradation에 강한 텍스트 조건을 얻고 restoration backbone에 주입한다.
SURE: Structure-guided Uncertainty-aware Residual Encoder
SURE는 Fη로부터 얻은 불확실성 기반 구조 큐를 이용해 다중 레벨 잔차를 예측하고, 잔차를 UNet의 skip 연결에 주입하여 로컬 stroke topology와 경계 정합을 개선한다. Sobel로 생성된 경계 맵 mh와의 지도 학습도 포함한다.
단일 스텝 inference 및 효율성
FMPR의 Euler discretization(K=16)과 최종 1-step diffusion으로 inference를 수행해 ms 단위의 속도를 달성한다. 128×512 해상도에서 0.08초 수준의 추론 시간이 보고되었다.
데이터 구성과 실험
BTL 데이터셋을 구축해 실세계(real)와 합성(synthetic) 텍스트 라인을 균형 있게 포함하고, RealCE-val에서 Real-world 일반화 성능을 평가한다.
핵심 아이디어 이해하기
출발점은 텍스트 SR에서의 거시적 텍스트 조건의 신뢰성 불확실성과 국부 stroke 경계의 불확실성이다. 기존 방법은 degraded 입력에서 직접 텍스트 조건을 추정해 restoration과 조건을 함께 최적화해, 경계가 왜곡되거나 문자인식이 잘못될 수 있다. PRISM은 두 가지로 나누어 해결한다. 1) FMPR은 paired LQ/HQ latents로 구성된 privileged prior 공간으로의 흐름을 학습해, degraded 입력에서 Reliable한 전역 텍스트 지시를 얻고 이를 restoration 백본에 주입한다. 2) SURE는 구조 정보를 불확실성에 따라 샘플링하고, 이 샘플링된 구조 cue ps를 이용해 로컬 경계 정보를 잔차로 보정하되, 높은 불확실성 영역은 과도한 경계 추정을 피하도록 한다. 이로써 global prior rectification과 local structure refinement를 단일 diffusion-pass로 달성한다.
관련 Figure

c_l에서 c⋆으로의 회복 경로를 2D t-SNE로 보여주며, Flow-Matching으로 시작점에서 목표prior로의 점진적 수송이 이루어짐을 시각적으로 확인시켜 준다.
Figure 3: FMPR prior recovery trajectory (t-SNE 시각화)
방법론
단계1: FMPR(Privileged Prior Pathway)에서 paired LQ/HQ latents를 인코딩해 c⋆를 생성하고, c⋆를 이용해 z⋅⋯h를 재구성한다. Lpriv/Lfm 손실을 통해 privileged prior 분포와 recovered prior 간의 거리를 최소화한다. 단계2: Recoverable Prior Learning에서 LQ만 이용해 cl를 얻고, velocity field VFM를 통해 cl에서 ĉ로의 경로를 수치적으로 적분한다. ĉ를 텍스트 조건으로 사용해 ẑrh = Uθr(zl, ĉ)로 복원. Lstage1은 Limg + Lfm으로 구성되며, ĉ와 c⋆의 차이를 추가로 최소화한다. Stage2: SURE를 고정한 채 두 번째 학습을 수행한다. Fη는 µ, σ를 예측해 불확실한 구조 cue를 샘플링하고 ps로 매핑한다. Cη는 zl, ĉ, ps를 받아 잔차 R = {ri}를 예측, 이 R을 Uθ¯의 skip 연결에 주입한다. mh는 Sobel로 얻은 경계 타깃이며, Lstage2는 Limg + Lstr + KL 제약으로 구성된다. 1-step diffusion에서 FMPR의 prior 정제와 SURE의 구조 보정이 서로 보완적으로 작동한다.
관련 Figure

FMPR와 SURE 두 모듈의 흐름과, VAE 디코더 및 복원 백본 간의 연결 구조를 시각화한다. 이를 통해 글로벌 prior 정제와 로컬 구조 보정이 어떻게 결합되는지 확인할 수 있다.
Figure 2: PRISM의 전체 구조를 보여주는 다이어그램
주요 결과
BTL-test의 ×2에서 PRISM은 PSNR 24.53, LPIPS 0.1514, FID 6.14, ACC 59.78%, NED 0.8220를 기록했고, ×4에서는 PSNR 22.08, LPIPS 0.2314, FID 12.57, ACC 42.12%, NED 0.6644를 달성했다. RealCE-val의 ×2에서 PRISM은 PSNR 21.00, LPIPS 0.1372, FID 33.71, ACC 84.28%, NED 0.9442를 보였고, ×4에서 PSNR 19.89, LPIPS 0.2043, FID 47.83, ACC 65.19%, NED 0.8521를 보였다. BTL-test에서 LPIPS/FID/NED에서 최상, ×4에서 ACC까지 종합적으로 우수한 성능을 보이며, RealCE-val에서도 PSNR/FID 등 다수 지표에서 강한 성능을 보임.
관련 Figure

Synth-train/CTR-train/BTL-train 구성에 따른 성능 차이를 시각화하여, 데이터 구성의 중요성을 보여준다.
Figure 9: training data composition의 실험 비교
기술 상세
전체 아키텍처는 VAE 인코더를 통한 zl, zh를 이용해 FMPR의 Privileged Prior Pathway(Ep)와 Recoverable Prior Pathway(Elq)를 구성한다. Ep은 zl과 zh를 결합한 입력에서 c⋆를 생성하고, ẑ⋆h = Uθp(zl, c⋆)로 재구성한다. Lpriv = ||x̂⋆ − xh||1 + λlpips LLPIPS(x̂⋆, xh)를 최소화한다. Elq는 LQ_latent zl만으로 cl를 얻고, velocity field VFM은 ĉ의 도출 경로를 따라 c⋆로의 transport를 학습한다. ĉ는 ẑrh의 조건으로 사용된다. Stage2에서 SURE는 Fη를 통해 µ, σ를 예측하고 zs = µ + σ ⊙ ε를 샘플링한다. ps = Π(zs), mh = Sob el(xh)을 이용한 경계 타깃을 생성하고, Cη는 zl, ĉ, ps를 입력으로 다중 잔차 R를 예측한다. ẑsh = Uθ¯(zl, ĉ; R) 및 x̂sh = Dvae(ẑsh)로 복원한다. Lstage2는 Limg + λstr Lstr + λkl KL(N(µ,σ^2) || N(0,I))를 합산한다. FMPR은 Euler 분할(K=16)로 ĉ를 얻고, 최종 1-step diffusion으로 복원을 수행한다.
실무 활용
crop-level Text-SR 파이프라인에 PRISM을 삽입해 저해상도 텍스트 이미지의 가독성 및 OCR 여부를 개선한다.
- 문서 스캐닝 및 아카이빙에서 텍스트 영역의 해상도 개선
- 모바일 번역 전처리에서 텍스트 읽기 향상
- OCR 파이프라인 전처리에서 인식 정확도 향상
- 간판/도로 표지판 인식의 로컬 구조 보정
- 역사적 문서의 텍스트 재현
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.