V-Bridge: 비디오 생성 사전 지식을 활용한 다목적 퓨샷 이미지 복원 기술

왜 중요한가

기존 이미지 복원 모델은 수백만 개의 데이터가 필요하지만, 이 논문은 이미 학습된 비디오 생성 모델의 지식을 활용해 아주 적은 데이터로도 뛰어난 복원 성능을 보여줍니다. 비디오 모델이 가진 사물의 움직임과 구조에 대한 이해도를 이미지 복원에 적용함으로써, 눈 제거와 같은 학습하지 않은 새로운 작업도 훌륭하게 수행할 수 있는 길을 열었습니다.

핵심 기여

비디오 생성 모델의 사전 지식 전이

대규모 비디오 생성 모델이 보유한 풍부한 시각적, 의미적, 동적 사전 지식을 이미지 복원 작업의 범용 지식으로 활용하는 새로운 패러다임을 정립했다.

점진적 비디오 생성 기반 복원 프레임워크

이미지 복원을 정적인 회귀 문제가 아닌 점진적인 비디오 생성 과정으로 재정의하여, 저화질에서 고화질로 나아가는 품질 개선 궤적을 학습하는 V-Bridge 프레임워크를 제안했다.

단계별 해상도 커리큘럼 학습

낮은 해상도에서 전역적 구조를 먼저 회복하고 점진적으로 해상도를 높여 세부 질감을 합성하는 커리큘럼 학습 전략을 통해 데이터 효율성과 복원 품질을 동시에 확보했다.

경량 드리프트 보정 메커니즘

비디오 모델의 해상도 편향으로 인한 품질 저하를 해결하기 위해, 구조적 일관성을 유지하면서 고주파 세부 정보를 복원하는 추가적인 드리프트 보정 모듈을 개발했다.

핵심 아이디어 이해하기

기존 이미지 복원은 손상된 이미지를 입력받아 한 번에 깨끗한 이미지를 예측하는 회귀 문제로 다뤄졌다. 이 방식은 픽셀 간의 복잡한 관계를 처음부터 배워야 하므로 수백만 장의 데이터가 필요하며, 학습하지 않은 유형의 손상에는 취약하다는 한계가 있다. V-Bridge는 이 문제를 점진적인 비디오 생성으로 바꾼다. 비디오 생성 모델은 이미 수많은 영상을 통해 세상이 어떻게 생겼는지, 빛이 어떻게 변하는지에 대한 깊은 이해를 갖추고 있다. 저화질 이미지를 비디오의 첫 프레임으로, 고화질 이미지를 마지막 프레임으로 설정하고 그 사이를 채우는 과정을 학습함으로써 모델이 가진 지식을 복원 작업에 끌어온다.

특히 비디오 모델이 학습 과정에서 익힌 시공간적 일관성을 활용한다. 이는 모델이 단순히 픽셀을 맞추는 것이 아니라, 이미지 내 객체의 구조적 논리를 유지하며 세부 사항을 채워 넣게 만든다. 결과적으로 단 1,000개의 샘플만으로도 100만 개를 학습한 기존 모델보다 더 자연스러운 복원 결과를 만들어낸다. 이는 딥러닝 모델이 이미 알고 있는 고차원적인 시각 지식을 저수준의 픽셀 복원 작업에 성공적으로 전이시킨 결과이다.

방법론

정적 이미지 쌍(LQ-HQ)을 시간적 흐름을 가진 가상 비디오 시퀀스로 변환한다. [저화질 이미지 I_LQ와 고화질 이미지 I_HQ를 입력으로] → [시간 계수 alpha_t를 이용한 선형 가중치 합산 연산 I_t = (1 - alpha_t)I_LQ + alpha_t I_HQ를 수행해] → [중간 단계의 이미지 I_t를 얻고] → [이 값이 복원 과정의 목표 지점이 되어 모델이 단일 매핑이 아닌 전체 복원 궤적을 학습하도록 유도].

단계별 해상도 커리큘럼 학습 전략을 적용한다. [512, 720, 960 해상도 순으로 입력] → [낮은 해상도에서 전역적 구조 복원 우선 학습 후 고해상도에서 세부 질감 학습] → [학습 효율성 증대 및 사전 학습 데이터와의 간극 해소]. 이 과정은 모델이 계층적 의미와 고주파 지각 통계를 단계적으로 캡처하도록 돕는다.

드리프트 보정 모듈을 통해 비디오 모델의 해상도 한계를 극복한다. [비디오 모델의 최종 출력값 x_hat 입력] → [실제 고해상도 정답 이미지와의 차이를 보정하는 짧은 궤적 학습 g_phi: p_theta^LR(x) -> p_HR(x)] → [구조적 일관성을 유지하면서 고주파 세부 정보 복원]. 이를 통해 비디오 모델의 해상도 편향을 제거하고 지각적 품질을 향상시킨다.

주요 결과

FoundIR 테스트 세트에서 단 1,000개의 샘플만으로 학습했음에도 불구하고, 100만 개의 데이터를 사용한 FoundIR-G 모델을 여러 지표에서 능가했다. 평균 PSNR 25.18dB, SSIM 0.7729를 기록하며 기존 방식 대비 1.6dB 이상의 성능 향상을 달성했다.

학습 데이터에 포함되지 않은 눈 제거와 같은 미학습 작업에서도 뛰어난 일반화 성능을 보였다. 시각적 분석 결과, 기존 범용 모델보다 구조적 일관성이 더 높고 노이즈가 적은 결과물을 생성했다. 이는 비디오 모델의 사전 지식이 특정 작업에 국한되지 않고 범용적으로 전이될 수 있음을 시사한다.

Ablation Study를 통해 드리프트 보정 모듈이 PSNR을 1.4dB 향상시키고 시각적 품질을 크게 개선함을 확인했다. 또한 9프레임 설정이 연산 효율과 복원 품질 사이에서 최적의 균형을 이룸을 밝혀냈다. 데이터 규모 분석에서는 단 200개의 샘플만으로도 기존 전체 데이터 학습 모델과 대등한 성능을 보였다.

실무 활용

아주 적은 양의 데이터만으로도 고성능 이미지 복원 모델을 구축할 수 있어, 데이터 수집이 어려운 특수 도메인이나 새로운 카메라 센서 대응에 유리하다.

저조도 환경에서 촬영된 사진의 노이즈 제거 및 밝기 개선
오래된 사진이나 영상의 해상도 업스케일링 및 화질 복원
안개, 비, 눈 등 악천후 조건에서 촬영된 자율주행 카메라 영상 정제
스마트폰 카메라의 실시간 이미지 보정 및 텍스트 가독성 향상

기술 상세

V-Bridge는 Wan2.2-TI2V-5B 비디오 생성 모델을 백본으로 사용하며, 이미지 복원을 정적 회귀가 아닌 조건부 생성 흐름으로 모델링한다. 핵심은 비디오 모델의 잠재 공간에 내재된 강력한 시각적 사전 지식을 활용하는 것이다. 이를 위해 LQ 이미지를 앵커 프레임으로 사용하고, HQ로 향하는 궤적을 학습하는 Supervised Fine-tuning 방식을 채택한다.

해상도 불일치 문제를 해결하기 위해 도입된 드리프트 보정 모델은 베이스 모델의 출력 분포를 고해상도 매니폴드로 매핑하는 조건부 생성 전이를 학습한다. 이 과정은 비디오 모델의 해상도 편향을 구조적 복원과 세부 정보 회복으로 분리하여 처리하게 한다.

추론 시에는 UniPC 스케줄러와 Flow Matching 기법을 사용하여 50단계의 샘플링 과정을 거친다. 4K 이상의 초고해상도 처리를 위해 2K 해상도에서 추론 후 리스케일링하는 실용적인 접근법을 사용하며, 이는 VAE 디코딩 시간을 단축하고 메모리 효율성을 높인다.

한계점

현재 접근 방식은 작업 일반화와 효율성 측면에서 두 가지 주요 한계에 직면해 있다. 분석 과정에서 혼란 변수를 피하기 위해 가속화 전략을 통합하지 않았으므로, 실시간 실무 적용을 위해서는 추가적인 추론 가속 기술 도입이 필요하다.

키워드

Video Generative Model(비디오 생성 모델)Image Restoration(이미지 복원)Few-shot Learning(퓨샷 학습)Progressive Refinement(점진적 개선)Foundation Model(파운데이션 모델)