핵심 요약
기존의 3D/4D 재구성 모델은 긴 영상 시퀀스를 처리할 때 메모리 부족이나 과거 정보를 잊어버리는 문제에 직면했습니다. 이 논문은 지속적 학습 기법을 도입하여 긴 시퀀스에서도 안정적으로 공간 정보를 기억하고 새로운 시점의 영상을 생성하는 효율적인 아키텍처를 제시합니다.
왜 중요한가
기존의 3D/4D 재구성 모델은 긴 영상 시퀀스를 처리할 때 메모리 부족이나 과거 정보를 잊어버리는 문제에 직면했습니다. 이 논문은 지속적 학습 기법을 도입하여 긴 시퀀스에서도 안정적으로 공간 정보를 기억하고 새로운 시점의 영상을 생성하는 효율적인 아키텍처를 제시합니다.
핵심 기여
LaCET(Large Chunk Elastic Test-Time Training) 제안
기존 LaCT의 과적합 및 망각 문제를 해결하기 위해 Elastic Weight Consolidation(EWC) 원리를 도입하여 추론 시 가중치 업데이트를 안정화하는 새로운 학습 메커니즘을 개발했다.
FSM(Fast Spatial Memory) 아키텍처 설계
긴 관찰 시퀀스로부터 시공간 표현을 학습하고 임의의 시간과 시점의 조합을 렌더링할 수 있는 효율적이고 확장 가능한 4D 재구성 모델을 구축했다.
Streaming-EMA 앵커 업데이트 정책
가중치 업데이트의 기준이 되는 앵커 상태를 지수 이동 평균(EMA)으로 관리하여 가중치 드리프트를 방지하고 장기적인 시공간 연속성을 확보했다.
다양한 렌더링 디코더와의 호환성 증명
LVSM 스타일의 직접 패치 예측 방식과 LRM 스타일의 명시적 4D 가우시안 스플래팅 방식을 모두 지원하여 범용성을 입증했다.
핵심 아이디어 이해하기
기존의 Test-Time Training(TTT)은 추론 중에 모델의 가중치를 실시간으로 업데이트하여 새로운 데이터에 적응하지만, 시퀀스가 길어질수록 가중치가 너무 많이 변해버리는 '가중치 드리프트' 현상이 발생한다. 이는 마치 새로운 정보를 배우려다 예전에 배운 중요한 공간 구조를 잊어버리는 것과 같다. 특히 4D 재구성에서는 카메라 경로가 길어질수록 특정 구간에만 과적합되어 전체적인 장면의 일관성이 깨지는 문제가 발생한다.
이 논문은 지속적 학습(Continual Learning)에서 사용하는 탄성 가중치 통합(EWC) 개념을 TTT에 결합했다. 핵심 원리는 가중치 업데이트 시 '중요한 가중치'가 기준점(Anchor)에서 너무 멀어지지 않도록 스프링처럼 잡아주는 탄성 제약 조건을 추가하는 것이다. 이를 통해 모델은 새로운 시각적 정보를 빠르게 학습하면서도, 이전에 파악한 장면의 전반적인 구조를 안정적으로 유지할 수 있다.
결과적으로 모델은 메모리 사용량을 일정하게 유지하면서도 이론적으로 무한히 긴 영상 시퀀스를 처리할 수 있게 된다. 이는 고해상도 4D 장면 재구성에서 발생하는 메모리 병목 문제를 해결하고, 시공간적으로 일관된 고품질의 영상 생성을 가능하게 한다.
방법론
LaCET 블록은 입력 데이터를 청크(Chunk) 단위로 처리하며, 각 청크마다 가중치 업데이트(Update), 통합(Consolidate), 적용(Apply)의 세 단계를 거친다. 업데이트 단계에서는 현재 청크의 Key-Value 관계를 학습하기 위해 가중치를 미세 조정한다. [입력 토큰 x → Key/Value 투영 → 손실 함수 계산 → 가중치 기울기 도출] 과정을 통해 빠른 가중치(Fast Weights) θ를 갱신한다.
통합 단계에서는 EWC 정규화 알고리즘을 사용하여 가중치의 급격한 변화를 억제한다. [현재 가중치 θ'와 앵커 가중치 θ*의 차이 계산 → Fisher 정보 행렬 기반 중요도 가중치 곱셈 → 가중치 보정] 순으로 연산이 수행된다. 이는 중요한 파라미터가 기준점에서 멀어지는 것에 페널티를 부여하여 모델의 안정성을 높이는 역할을 한다.
앵커 업데이트는 Streaming-EMA 방식을 채택했다. [이전 앵커 θ*와 현재 가중치 θ의 가중 평균 계산 → 새로운 앵커 설정] 과정을 통해 앵커가 가중치의 궤적을 부드럽게 따라가도록 한다. 이는 저주파 필터(Low-pass filter)와 같은 역할을 하여 급격한 노이즈는 차단하고 장기적인 장면의 변화는 수용하게 한다.
최종적으로 FSM은 이미지 토크나이저를 통해 입력 영상을 토큰화하고, Plücker 레이 맵과 타임스탬프 정보를 결합하여 시공간 정보를 인코딩한다. 이후 LaCET 백본을 거쳐 추출된 특징은 LVSM 또는 LRM 스타일의 디코더를 통해 최종적인 4D 장면으로 렌더링된다.
관련 Figure

입력 영상이 토큰화되어 LaCET 블록을 통과하며 가중치가 업데이트되고 통합되는 과정을 시각화했다. 특히 앵커 가중치와 빠른 가중치가 상호작용하며 드리프트를 방지하는 구조가 핵심이다.
FSM 모델의 전체 구조와 LaCET 블록의 내부 작동 메커니즘을 보여주는 다이어그램이다.
주요 결과
Stereo4D 및 NVIDIA 벤치마크에서 기존 SOTA 모델들을 상회하는 성능을 기록했다. 특히 Stereo4D 데이터셋에서 FSM-LVSM 모델은 PSNR 32.16, SSIM 0.931을 달성하여 최신 최적화 기반 모델 및 렌더링 기반 모델들보다 뛰어난 화질을 보여주었다. 이는 모델이 긴 시퀀스에서도 시공간적 일관성을 잘 유지하고 있음을 의미한다.
Ablation Study 결과, EWC와 Streaming-EMA를 결합했을 때 가장 높은 성능 향상이 나타났다. 일반적인 LaCT 모델은 청크 수가 늘어날수록 성능이 급격히 하락하는 반면, LaCET는 청크를 나누어 처리함에도 불구하고 단일 청크 모델에 근접하거나 이를 능가하는 안정성을 보였다. 이는 메모리 효율성과 성능 사이의 트레이드오프를 성공적으로 해결했음을 입증한다.
또한, 카메라 포즈 보간(Interpolation) 숏컷 문제를 효과적으로 억제했다. 기존 모델들이 단순히 인접 프레임을 복사하려는 경향이 있는 것과 달리, LaCET는 실제 3D 구조를 이해하고 시점을 추론하는 능력이 더 뛰어남이 확인됐다. 이는 입력 뷰가 희소한(Sparse) 상황에서도 높은 재구성 품질을 유지하는 결과로 이어졌다.
관련 Figure

LaCET가 입력이 희소해지는 상황에서도 기존 LaCT보다 훨씬 안정적인 성능을 유지함을 보여준다. 이는 탄성 제약 조건이 데이터 부족 상황에서 강력한 가이드 역할을 함을 증명한다.
입력 이미지 수와 토큰 수에 따른 PSNR, SSIM, LPIPS 성능 변화 그래프이다.

FSM 4D-LVSM이 다른 모델들에 비해 세부 묘사가 훨씬 뚜렷하고 Ground Truth에 가까운 결과를 생성함을 확인할 수 있다. 특히 동적인 장면에서의 일관성이 돋보인다.
Stereo4D 테스트 세트에서 다른 모델들과의 시각적 품질을 비교한 결과이다.
기술 상세
FSM 아키텍처는 SwiGLU-MLP 구조를 빠른 가중치 네트워크로 사용하며, 편향(Bias) 항을 제거하여 학습 효율을 높였다. 입력 데이터는 10채널 특징 맵(RGB 3 + Plücker Ray 6 + Timestamp 1)으로 구성되어 시공간 정보를 동시에 수용한다. 어텐션 메커니즘에는 QK-Norm을 적용하여 긴 시퀀스 학습 시의 수치적 안정성을 확보했다.
수학적으로 LaCET의 핵심은 Fisher 정보 행렬 F를 온라인으로 추정하는 것이다. 각 파라미터의 중요도는 그래디언트의 제곱값에 대한 지수 이동 평균으로 계산되며, 이는 손실 함수의 국소 곡률(Local curvature)을 근사한다. 이 중요도 맵을 통해 모델은 장면의 정적인 배경과 동적인 객체를 구분하여 가중치 업데이트 강도를 조절할 수 있게 된다.
구현 측면에서 LVSM 스타일 디코더는 가벼운 선형 헤드를 사용하여 직접 패치를 예측하며, LRM 스타일은 4D 가우시안 스플래팅(4DGS) 프리미티브를 생성한다. 4DGS 모드에서는 타일 기반 래스터화와 지연 역전파(Deferred backpropagation) 기술을 사용하여 GPU 메모리 소모를 최소화했다. 학습 과정에서는 128x128 해상도에서 시작하여 256x256으로 점진적으로 높이는 커리큘럼 학습을 적용했다.
관련 Figure

LVSM은 직접 패치를 예측하는 반면, LRM은 4D 가우시안 스플래팅을 통해 명시적인 장면 표현을 생성하는 차이점을 명확히 보여준다. 두 방식 모두 LaCET 백본을 공유함을 알 수 있다.
FSM-LVSM과 FSM-LRM의 두 가지 아키텍처 설계를 비교하여 보여준다.
한계점
매우 큰 카메라 이동이나 시점 변화가 발생할 경우 피사체의 움직임을 일관되게 업데이트하지 못하고 잔상(Ghosting)이 남는 경우가 발생한다. 또한 현재 모델은 포즈가 제공된 이미지를 전제로 하며, 포즈가 없는 야생의 영상에서 직접 카메라 파라미터를 추정하는 기능은 포함되어 있지 않다. 렌더링 기반 감독 학습만으로는 완벽한 기하학적 정확도를 보장하기 어려워 광학 흐름(Optical flow)이나 깊이(Depth) 정보와 같은 추가적인 기하학적 제약 조건이 필요할 수 있다.
실무 활용
긴 영상 시퀀스를 활용한 고품질 4D 장면 재구성이 필요한 다양한 산업 분야에 즉시 적용 가능하다. 특히 메모리 제한이 있는 환경에서도 긴 컨텍스트를 처리할 수 있어 실시간 스트리밍이나 모바일 환경에서의 활용도가 높다.
- 자율 주행 로봇의 주변 환경 4D 매핑 및 시공간적 이해
- 영화 및 게임 제작을 위한 긴 영상 기반의 동적 3D 에셋 생성
- AR/VR 기기에서의 실시간 공간 재구성 및 시점 자유 이동 서비스
- 스포츠 중계 등에서 다수의 카메라 영상을 통합한 4D 리플레이 생성
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.