왜 중요한가
기존의 시점 생성 기술은 동일한 장면을 여러 각도에서 촬영한 사진 쌍이 필수적이었으나, 이 논문은 단 한 장의 사진과 깊이 추정 기술만으로 학습이 가능함을 입증했다. 이를 통해 인터넷상의 방대한 단일 이미지 데이터를 학습에 활용할 수 있게 되었으며, 기존 모델 대비 600배 빠른 추론 속도로 실시간 인터랙티브 서비스의 가능성을 열었다.
핵심 기여
데이터 확장성이 뛰어난 단안 학습 패러다임
멀티뷰 이미지 쌍 없이도 단일 이미지 컬렉션만으로 학습할 수 있는 체계를 구축하여 인터넷 규모의 방대한 데이터를 활용 가능하게 함.
효율적인 기하학 프리 모델 설계
추론 시점에 깊이 추정기나 복잡한 3D 표현 없이 이미지와 포즈 정보만으로 100 FPS 이상의 실시간 성능을 달성함.
강력한 제로샷 도메인 일반화
3천만 장의 비정형 이미지를 학습하여 실내외, 객체 중심, 예술 작품 등 학습하지 않은 도메인에서도 일관된 성능을 발휘함.
미터법 기반의 정확한 스케일 인식
Metric Depth Estimator를 학습 보조 도구로 활용하여 실제 거리 단위의 카메라 이동에 따른 정확한 시차 변화를 구현함.
핵심 아이디어 이해하기
기존의 새로운 시점 생성(Novel View Synthesis)은 같은 장소를 다른 각도에서 찍은 사진들을 대조하며 공간 구조를 익혔다. 하지만 현실 세계의 대부분의 사진은 단 한 장뿐이며, 이런 '쌍'을 구하는 것은 매우 어렵다. OVIE는 이 문제를 해결하기 위해 '깊이 추정(Depth Estimation)'이라는 기초 개념을 학습의 징검다리로 삼는다.
먼저 사진 한 장에서 각 픽셀이 카메라로부터 얼마나 떨어져 있는지(Depth)를 계산한다. 이 정보를 바탕으로 2차원 사진의 픽셀들을 3D 공간의 점들(Point Cloud)로 뿌려준다. 그 다음, 카메라를 옆으로 살짝 옮겼다고 가정하고 이 점들을 다시 찍으면(Reprojection), 원래 사진에서는 보이지 않던 가려진 부분들이 검게 비어 있는 불완전한 사진이 생성된다.
이 불완전한 사진이 모델의 '가짜 정답(Pseudo-target)'이 된다. 모델은 원본 사진 한 장만 보고 이 가짜 정답의 비어 있는 부분을 자연스럽게 채워 넣으면서 새로운 각도에서 본 모습을 그리는 법을 배운다. 결과적으로 추론 시에는 복잡한 3D 계산 없이도 사진 한 장과 이동할 각도만 주어지면 즉시 새로운 화면을 그려낼 수 있게 된다.
방법론
전체 프레임워크는 학습 시에만 기하학적 보조 도구를 사용하고 추론 시에는 이미지 기반으로만 동작하는 구조이다. 소스 이미지 가 입력되면 동결된 깊이 추정기(MoGE-2)를 통해 3D Point Cloud 를 생성한다. 이후 임의의 카메라 변환 을 샘플링하여 를 새로운 평면에 투영함으로써 가시성 마스크 과 부분적인 정보를 가진 가짜 정답 이미지 를 얻는다.
모델 는 소스 이미지 와 상대적 카메라 포즈 을 입력받아 전체 시점 이미지 을 예측한다. 이때 포즈 정보는 7차원 벡터(평행이동 3, 쿼터니언 회전 4)로 인코딩되어 AdaLN(Adaptive Layer Normalization)을 통해 Transformer 블록의 정규화 과정에 주입된다. [7차원 포즈 벡터 → 선형 레이어 투영 → Transformer 블록 내 스케일/시프트 파라미터 → 각 토큰의 특징 변조] 순으로 연산이 수행되어 모델이 목표 시점을 인식하게 한다.
손실 함수는 마스크 을 활용하여 유효한 영역에서만 계산되는 세 가지 항으로 구성된다. 첫째, 재구성 손실은 예측값과 가짜 정답 사이의 픽셀 단위 오차를 줄인다. 둘째, LPIPS와 P-DINO를 결합한 지각적 손실은 이미지의 의미론적 특징을 유지한다. 셋째, PatchGAN 기반의 적대적 손실은 가려졌던 영역을 채울 때 실제 사진과 같은 질감을 생성하도록 유도한다. 특히 적대적 손실 계산 시 불완전한 대신 원본 를 실제 샘플의 대리자로 사용하여 텍스처의 일관성을 확보한다.
주요 결과
RealEstate10K와 DL3DV 벤치마크에서 평가한 결과, OVIE는 해당 데이터셋으로 직접 학습하지 않은 제로샷(Zero-shot) 설정임에도 불구하고 인도메인(In-domain) 모델들과 대등하거나 더 우수한 성능을 기록했다. 특히 DL3DV 데이터셋에서는 모든 지표(PSNR 14.8, SSIM 0.369, FID 13.6)에서 기존 모델들을 앞질렀다.
추론 속도 면에서 압도적인 효율성을 증명했다. H100 GPU 기준 116 FPS의 처리량을 기록하며, 두 번째로 빠른 모델인 VIVID(0.19 FPS)보다 약 600배 빠른 속도를 달성했다. 이는 단일 포워드 패스만으로 이미지를 생성하는 구조 덕분이며, 실시간 인터랙티브 조작이 가능한 수준이다.
데이터 규모에 따른 성능 분석(Ablation Study) 결과, 학습 데이터가 3,000장에서 3,000만 장으로 늘어남에 따라 PSNR과 FID 지표가 꾸준히 개선됨이 확인됐다. 또한 다양한 도메인의 이미지를 섞어서 학습할 때 일반화 성능이 가장 높게 나타나, 특정 데이터셋에 특화된 기존 방식보다 범용적인 활용에 유리함을 입증했다.
실무 활용
추론 시 별도의 깊이 추정이나 최적화 과정이 필요 없는 초고속 모델로, 저사양 기기에서도 실시간 시점 전환 서비스를 구현할 수 있다.
- 웹 브라우저나 모바일 앱에서 사진 한 장으로 즐기는 실시간 3D 공간 탐색 서비스
- 박물관이나 갤러리의 평면 예술 작품을 입체적으로 감상할 수 있는 인터랙티브 전시 도구
- 로봇이나 드론의 단안 카메라 영상을 활용한 실시간 주변 환경 시뮬레이션 및 경로 계획
- 과거 기록 사진이나 아카이브 이미지를 3D 영상 콘텐츠로 변환하는 자동화 툴
기술 상세
아키텍처는 8배 다운샘플링을 수행하는 Convolutional Encoder, 12레이어의 ViT-B Bottleneck, 그리고 대칭 구조의 Convolutional Decoder로 구성된다. 입력 이미지는 256x256 해상도를 사용하며, Transformer 블록 내부에서는 SwiGLU 활성화 함수와 RMSNorm을 채택하여 학습 안정성을 높였다.
포즈 조건화는 AdaLN-Zero 방식을 사용하여 학습 초기에는 조건부 경로의 기여도를 0으로 설정하고 점진적으로 학습되도록 설계했다. 이는 모델이 먼저 이미지의 특징을 파악한 뒤 포즈에 따른 변화를 익히도록 돕는다. 또한 P-DINO 손실을 위해 동결된 DINOv3-ViT-B/16 모델의 특징 맵을 추출하여 마스킹된 지각적 유사도를 계산한다.
학습 시 3000만 장의 이미지를 사용하며, AdamW 옵티마이저와 Cosine Decay 스케줄러를 적용했다. 특히 적대적 학습의 안정성을 위해 판별기 업데이트를 전체 학습 과정의 37.5% 이후로 지연시키는 전략을 사용했다. 추론 시에는 지수 이동 평균(EMA) 가중치를 적용하여 생성 품질을 극대화했다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.