Transformer 기반 VAE
Transformer 인코더로 이미지·레이 필드를 토큰화하고 학습 가능한 쿼리 슬롯에서 잠재의 분포(μ,σ)를 얻는 변분 오토인코더이다. 재구성 손실과 Perceptual/GAN/KL 규제를 결합해 renderable한 고정 길이 NIS를 학습한다. 이 구조는 NIS를 생성/복원 인터페이스로 제공하는 데 핵심 역할을 한다.