핵심 요약
기존 생성 모델은 일반적인 SDR 데이터에 최적화되어 있어 HDR의 넓은 밝기 범위를 처리하기 어려웠다. 이 논문은 모델 구조를 바꾸지 않고도 로그 인코딩을 통해 HDR 데이터를 기존 모델의 잠재 공간에 정렬시켜 고품질 HDR 비디오를 생성하는 효율적인 방법을 제시한다.
왜 중요한가
기존 생성 모델은 일반적인 SDR 데이터에 최적화되어 있어 HDR의 넓은 밝기 범위를 처리하기 어려웠다. 이 논문은 모델 구조를 바꾸지 않고도 로그 인코딩을 통해 HDR 데이터를 기존 모델의 잠재 공간에 정렬시켜 고품질 HDR 비디오를 생성하는 효율적인 방법을 제시한다.
핵심 기여
LogC3 인코딩을 활용한 잠재 공간 정렬
시네마틱 파이프라인에서 사용되는 LogC3 인코딩이 HDR 데이터를 사전 학습된 비디오 모델의 잠재 공간(Latent Space) 분포와 자연스럽게 일치시킨다는 점을 발견했다. 이를 통해 추가적인 인코더 재학습 없이도 HDR 도메인 적응이 가능하다.
카메라 특성 모사 기반의 학습 전략
SDR 입력에서 소실된 하이라이트와 섀도우 디테일을 복원하기 위해 대비 클리핑, 압축 아티팩트, 선택적 블러링 등 카메라의 물리적 한계를 모사한 데이터 증강 기법을 도입했다. 모델이 단순 복사가 아닌 시각적 사전 지식을 바탕으로 누락된 정보를 추론하도록 유도했다.
경량화된 비디오 파인튜닝 파이프라인
전체 파라미터의 1% 미만인 LoRA 어댑터만을 사용하여 약 10,000 스텝의 짧은 학습만으로도 시간적 일관성이 유지되는 고해상도 float16 HDR 비디오 생성을 달성했다.
핵심 아이디어 이해하기
기존의 비디오 생성 모델은 [0, 1] 범위로 제한되고 지각적으로 압축된 SDR 이미지로 학습된다. 반면 실제 세상의 빛의 세기를 담은 HDR 데이터는 선형 공간에서 매우 넓은 범위를 가지며 불균형한 분포를 보인다. 이 때문에 SDR로 학습된 모델에 HDR 데이터를 그대로 입력하면 모델이 배운 '이미지의 통계적 특성'과 맞지 않아 제대로 작동하지 않는 문제가 발생한다.
이 논문은 HDR 데이터를 모델이 익숙한 SDR의 분포로 변환하는 '다리' 역할로 LogC3 로그 인코딩을 선택했다. 로그 변환은 넓은 범위의 수치를 압축하면서도 세부 정보를 보존하는데, 이것이 모델 내부의 VAE가 생성하는 잠재 변수(Latent)의 분포와 매우 유사하게 겹친다는 것을 수학적으로 확인했다. 즉, 모델의 구조를 고치는 대신 데이터의 형태를 모델이 '익숙하게' 느끼도록 바꾼 것이다.
결과적으로 모델은 자신이 이미 알고 있는 '빛이 표면에서 어떻게 반사되는지', '그림자가 어떻게 형성되는지'에 대한 깊은 시각적 이해(Visual Priors)를 활용하여, 입력된 SDR 영상에서 잘려나간 밝은 부분이나 어두운 부분의 디테일을 자연스럽게 채워 넣을 수 있게 된다.
관련 Figure

LogC3와 PQ 방식이 SDR 분포와 가장 유사함을 보여주며, 특히 LogC3가 잠재 공간에서 가장 낮은 KL Divergence를 기록하여 모델 정렬에 최적임을 입증하는 데이터이다.
다양한 HDR 인코딩 방식에 따른 픽셀 및 잠재 공간 분포 분석 그래프
방법론
LumiVid는 사전 학습된 비디오 Diffusion Transformer(DiT) 모델을 기반으로 하며, 세 가지 핵심 구성 요소로 이루어진다. 첫째는 LogC3 압축 변환으로, 선형 HDR 값을 VAE 인코더가 수용 가능한 범위로 매핑한다. 둘째는 AVControl 프레임워크를 활용하여 DiT가 입력 SDR 참조 영상을 조건으로 HDR 영상을 생성하도록 설계했다. 셋째는 현실적인 SDR 열화를 모사한 학습 파이프라인이다.
LogC3 변환 과정에서는 입력값 x에 대해 로그 연산을 수행하여 출력값 y를 얻는다. [x(선형 휘도) → log(ax+b)+c → y(압축된 값)] 순으로 계산되며, 이는 물리적인 빛의 강도를 인간의 시각 특성과 유사한 로그 스케일로 변환하여 모델이 처리하기 쉬운 정규 분포에 가깝게 만든다.
학습 시에는 Flow Matching Loss를 사용한다. 타겟 HDR 잠재 변수 z_tgt와 노이즈가 섞인 상태 사이의 벡터 필드를 예측하도록 학습된다. [z_ref(SDR 참조)와 노이즈를 입력으로] → [DiT+LoRA 연산] → [예측된 속도 벡터 출력] → [실제 타겟과의 차이를 줄여 가중치 갱신] 과정을 거친다. 이때 SDR 입력에만 의도적으로 강한 대비 클리핑과 블러를 적용하여 모델이 부족한 정보를 사전 지식으로부터 '생성'하도록 강제한다.
관련 Figure

HDR 영상을 LogC3로 변환하여 VAE 인코더에 넣고, 동시에 SDR 영상을 열화시켜 참조 정보로 입력하는 구조를 보여준다. DiT 모델 내부에 LoRA 어댑터를 추가하여 효율적으로 학습하는 과정을 시각화했다.
LumiVid의 학습 파이프라인 개요도
주요 결과
ARRI Cinema Footage 벤치마크에서 LumiVid는 PU21-PSNR 36.20dB, JOD 7.86을 기록하며 기존의 최신 SDR-to-HDR 변환 모델인 HDRTVNet(26.48dB)과 X2HDR(20.68dB)을 큰 차이로 앞질렀다. 특히 비디오 전용 모델로서 시간적 안정성을 나타내는 Flicker 지수에서 0.0245를 기록하여 이미지 기반 모델들보다 훨씬 안정적인 영상을 생성함을 입증했다.
UPIQ 이미지 데이터셋을 활용한 제로샷 평가에서도 30.05dB의 PU21-PSNR을 달성했다. 이는 모델이 학습 과정에서 본 적 없는 카메라 센서나 색 공간에 대해서도 LogC3 인코딩을 통해 확보한 범용적인 HDR 표현력을 바탕으로 우수한 일반화 성능을 보임을 의미한다.
Ablation Study 결과, LogC3 인코딩이 ACES나 HLG 등 다른 변환 방식보다 VAE 잠재 공간에서의 KL Divergence가 가장 낮았으며(0.007), 이는 모델의 사전 지식을 활용하는 데 가장 적합한 정렬 방식임이 수치적으로 증명됐다.
관련 Figure

노출 값을 낮추었을 때 LumiVid만이 자동차 헤드라이트 주변의 디테일과 배경의 산, 구름 등을 정확하게 복원해내는 것을 확인할 수 있다. 타 모델들은 해당 영역이 단순히 하얗게 타버리거나 디테일이 뭉개지는 현상을 보인다.
기존 모델들과의 HDR 생성 품질 비교 결과
기술 상세
LumiVid 아키텍처는 고정된 VAE와 DiT 백본을 유지하면서 LoRA(Low-Rank Adaptation)를 통해 최소한의 파라미터만 업데이트한다. 핵심은 HDR-to-Latent 정렬이다. 연구진은 KL Divergence를 측정하여 LogC3가 픽셀 공간(0.215)과 잠재 공간(0.007) 모두에서 SDR 분포와 가장 높은 유사성을 보임을 확인했다.
학습 데이터셋으로는 PolyHaven의 환경 맵을 활용해 렌더링한 합성 데이터와 'Tears of Steel' 오픈소스 HDR 영화 데이터를 혼합하여 사용했다. 약 300개의 클립만으로도 충분한 성능을 냈는데, 이는 모델이 이미 SDR 학습 단계에서 빛의 물리적 특성을 충분히 학습했음을 시사한다.
추론 단계에서는 11단계의 Denoising Step만으로도 고품질 float16 EXR 파일을 생성할 수 있다. 생성된 결과물은 단순한 이미지 향상을 넘어 실제 전문가용 컬러 그레이딩 작업에 바로 투입할 수 있는 수준의 물리적 휘도 정보를 포함한다.
한계점
현재 모델은 합성 데이터와 특정 영화 소스에 의존하여 학습되었기 때문에, 매우 복잡한 실제 환경의 움직임이나 특수한 조명 조건에서는 일반화 성능이 다소 제한될 수 있다. 또한 텍스트 기반의 직접적인 HDR 생성은 아직 지원하지 않으며 SDR 영상을 참조로 하는 방식에 국한되어 있다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.