TL;DR
다룸 규모의 파노라마 합성은 방·문·복도 간의 기하학적 일관성과 재질 일치를 동시에 보장해야 한다. 기존 2D diffusion은 공간 기억이 없어 뷰가 바뀌면 동일 요소의 형상·재질이 달라 보일 수 있고, 단일 3D 자원은 비용 증가와 텍스처 손실이 있다. PanoWorld는 floorplan을 글로벌 기하학적 프록시로 활용하고, 3DGS 캐시를 통한 렌더able 공간 기억으로 다룸 간 크로스-뷰 일관성을 유지한다. 이는 다룸 규모의 VR 투어에서 고해상도 질감과 일관된 구조를 동시에 달성하는 새로운 프레임워크를 제시한다.
왜 중요한가
다룸 규모의 파노라마 합성은 방·문·복도 간의 기하학적 일관성과 재질 일치를 동시에 보장해야 한다. 기존 2D diffusion은 공간 기억이 없어 뷰가 바뀌면 동일 요소의 형상·재질이 달라 보일 수 있고, 단일 3D 자원은 비용 증가와 텍스처 손실이 있다. PanoWorld는 floorplan을 글로벌 기하학적 프록시로 활용하고, 3DGS 캐시를 통한 렌더able 공간 기억으로 다룸 간 크로스-뷰 일관성을 유지한다. 이는 다룸 규모의 VR 투어에서 고해상도 질감과 일관된 구조를 동시에 달성하는 새로운 프레임워크를 제시한다.
핵심 기여
Node-based autoregressive whole-house panorama synthesis
floorplan으로 구성된 글로벌 shell과 3D 기억(memory) 채굴을 활용해 다룸 규모의 파노라마를 순차적으로 생성하는 노드 기반 접근을 제안한다.
Room-aware panoramic LRM with masked attention
Room 간 간섭을 억제하기 위해 같은 방 내 토큰은 Dense하게 상호작용하고, 방 경계의 도어웨이에서는 제한적으로만 정보를 교환하는 Room-aware Group Attention을 도입한다.
Topology-aware progressive 3DGS caching
새 노드에서 로컬 컨텍스트를 업데이트하고 이를 글로벌 캐시에 합성하는 진보적 캐싱으로 전체 히스토리 재구성을 피하면서 공간 기억을 점진적으로 확장한다.
Decoupled geometry-appearance conditioning
floorplan shell은 구조를 제약하고, 3DGS cache는 색상·재질·고주파 디테일의 appearances를 저장하게 분리해 2D 생성의 질감과 3D 메모리의 공간 일관성을 함께 보장한다.
핵심 아이디어 이해하기
<단락 1> 다룸 규모의 파노라마 합성은 다수의 방과 문의 연결성, 그리고 다른 시점에서의 일관된 기하를 필요로 한다. 순수 2D 제너레이터는 고해상도 텍스처를 만들 수 있지만 공간 기억이 없고, 3D 단일 자원은 대규모 환경에서 비용이 크게 증가한다. <단락 2> PanoWorld는 floorplan을 글로벌 shell로 삼아 구조 제약을 제공하고, 매 노드마다 shell proxy와 근접 파노라마를 3DGS memory로 확장한다. 이 로컬 업데이트를 통해 노드 간 일관성을 확보한다. <단락 3> Room-aware Group Attention은 동일 방 내에서의 정보 교환은 활발히 허용하고, 서로 다른 방 간의 정보 흐름은 경계로 제한한다. Topology-aware Progressive 3DGS caching은 전체 히스토리 재계산 없이 로컬 업데이트를 글로벌 캐시에 합치도록 설계되어 확장성을 보장한다. <단락 4> 최종적으로 2D 제너레이터의 appearance와 shell의 geometry를 분리해 high-frequency 디테일을 보존하면서도 크로스-뷰 일관성을 유지한다.
방법론
- Global Geometric Proxy from Floorplan: floorplan을 coarse 3D shell S로 변환하고 각 노드 vi에서 shell observation Bi = RS(vi)를 렌더링한 뒤, Gi(vi)로 변환해 벽· openings· 룸 레이아웃의 저주파 제약을 제공하는 기하학적 프록시를 구성한다. [입력 -> 프록시 생성 -> 각 노드에서 렌더링] 패턴으로 진행된다. - Topology-Guided Node and Path Sampling: 그래프의 중심성 및 경로 비용을 고려해 시작 노드를 선택하고 목표 노드를 방 adjacency 및 doorway 제약으로 연결하며, 시각적 중복이 큰 경우 보조 노드를 삽입한다. - Room-Aware Panoramic LRM: Ht = {vt} ∪ Nsame(vt) ∪ Ndoor(vt)로 구성된로컬 컨텍스트를 입력으로 Gamma 분포의 Gaussian 파라미터 ∆Ct = {(µk, qk, σk, αk, ck)}를 예측한다. 각 파노라마는 equirectangular 인코더로 인코딩되고 디코더는 Gaussian 파라미터를 글로벌 좌표계로 매핑한다. CPRoPE를 사용해 가로 방향을 원주성으로 처리한다. - Training Objective: L = λ2L2 + λpercLperc + λαLα + λdLdepth로 구성되며, Ldepth는 로그 깊이와 스케일-불변 항으로 구성된다. - Topology-Aware Progressive 3DGS Caching: Ct = Prune(Fuse(Ct−1, ∆Ct))로 업데이트되며, 노드의로컬 업데이트를 제어된 방식으로 글로벌 캐시에 통합한다. - Auto-Regressive Panorama Synthesis with Decoupled Guidance: 시작 노드에서 I0 = Φ(G0, s)로 초기화하고 vt에서 Vt = RCt(vt)을 얻어 It = Φ(Gt, Vt, Ip(t))를 생성한다. shell은 구조 제약, 캐시는 appearance 제약으로 작용한다.
관련 Figure

LRM 입력 파노라마를 인코딩하고 Gaussian 파라미터를 예측하는 흐름을 보여준다. 3DGS 메모리로 노드 간 공간 정보를 축적하는 원리를 시각적으로 확인할 수 있다.
LRM 기반 파노라마-3DGS 캐시의 구성 요소를 시각화한 다이어그램

로컬 컨텍스트를 업데이트하고 글로벌 캐시에 병합하는 과정을 시각화한다. 노드 간의 로컬 업데이트가 중심이며 전체 히스토리 재구성이 필요 없음이 드러난다.
Figure 3: Progressive 3DGS caching 구성

새 방에서 캐시의 픽셀 중 실제 보이는 표면 뒤쪽의 텍스처를 제거하는 depth gate의 작동을 시각화한다. 다룸 간 간섭 억제의 핵심 기법이다.
Cross-room memory filtering 및 shell-depth 기반 제거

Panorama 포지셔닝 인코딩의 중요성을 AB 비교로 제시한다. CPRoPE의 영향이 단일 이미지의 경계일관성에 주로 기여함을 시사한다.
CPRoPE 제거 여부에 따른 2D 파노라마 포지셔닝 차이

Nano Banana 2 및 Seedream-4.5-Edit 같은 이미지 편집 baselines의 adaptation 예시를 통해, 프롬프트 설정과 구조 보존의 중요성을 시각화한다.
Nano Banana 2 adaptation pipeline 예시
주요 결과
- Panorama Synthesis: Floorplan 벤치마크에서 Overlap PSNR(PSNRov)은 PanoWorld가 22.1365로, 두 번째인 OmniRoam의 16.3862보다 5.75 dB 향상한다. 단일 노드 품질은 HPSv3가 7.9564, CLIP-I Style이 0.7577로 나타났으며, DreamHome-Pano의 HPSv3 8.5711 및 CLIP-I Style 0.7785와 비교된다. - Whole-House LRM Reconstruction: 8-패널 입력에서 MVP 8의 PSNR 21.0370, SSIM 0.8145, LPIPS 0.3044에 비해 PanoWorld 8은 PSNR 29.2361, SSIM 0.8880, LPIPS 0.2225로 우수하다. 12-패널 입력에서 MVP 12의 PSNR 20.8342, SSIM 0.8090, LPIPS 0.3095에 비해 PanoWorld 12는 PSNR 28.8003, SSIM 0.8817, LPIPS 0.2299로 상회한다. - Ablation (2D Generator): Full PanoWorld의 HPSv3 7.9564, w/o VM 7.8173, w/o NV 7.8824, w/o CPRoPE 7.9712로 나타났으며, 기억(memory)과 Nearby-view conditioning의 기여가 확인된다. - LRM Ablation: CPRoPE 제거 시 PSNR이 28.1739로 감소하고, RAGA 제거 시 PSNR이 21.7084로 더 감소한다. CPRoPE의 존재가 고해상도 재구성에 중요한 역할을 한다.
관련 Figure

다중 노드 간의 일관성 감소를 보이고 PanoWorld의 크로스-노드 드리프트 감소를 시사한다.
다양한 baselines와의 파노라마 합성 결과 비교

스타일 조건에 따른 cross-node 일관성 비교를 보강한다.
추가 비교 이미지 시퀀스

LRM 기반 재구성 품질 차이를 시각적으로 보여주며, PanoWorld의 고해상도 질감을 강조한다.
LRM 기반 재구성과 비교
실무 활용
플로어플랜과 캐시-메모리를 분리한 조건부 파노라마 합성으로, 노드 간 크로스-룸 일관성을 유지하면서 빠르게 재스타일링 가능하다. VR 투어 및 인테리어 디자인 시나리오에 적용할 수 있다.
- 부동산 가상 투어 생성 및 빠른 스타일링
- 실내 디자인 피드백 및 레이아웃 검토
- 건축 디자인 프리뷰 및 디자인 의사결정 지원
- VR 트레이닝 및 시뮬레이션 환경 구축
코드 공개 여부: 미확인
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.