TL;DR
현행 MLLMs은 perspective 이미지 기반으로 공간 이해가 제한된다. 360° 파노라마는 전체 환경을 한 번에 인식하게 해 공간 추론의 잠재력을 높이지만, ERP를 구면 좌표로 직접 다루기보다 2D 투영에 의존하는 것이 일반적이다. 본 연구는 ERP 파노라마를 관찰자 중심의 연속 공간으로 다루는 pano-native 이해를 제시하고, 이를 통해 통합적인 공간 추론 능력을 강화한다. 이로써 인간 중심 시나리오뿐 아니라 탐색, 내비게이션 등 다수의 360° 어플리케이션에 대한 성능 및 효율성을 높인다.
왜 중요한가
현행 MLLMs은 perspective 이미지 기반으로 공간 이해가 제한된다. 360° 파노라마는 전체 환경을 한 번에 인식하게 해 공간 추론의 잠재력을 높이지만, ERP를 구면 좌표로 직접 다루기보다 2D 투영에 의존하는 것이 일반적이다. 본 연구는 ERP 파노라마를 관찰자 중심의 연속 공간으로 다루는 pano-native 이해를 제시하고, 이를 통해 통합적인 공간 추론 능력을 강화한다. 이로써 인간 중심 시나리오뿐 아니라 탐색, 내비게이션 등 다수의 360° 어플리케이션에 대한 성능 및 효율성을 높인다.
핵심 기여
Pano-native capability taxonomy
파노라마 공간 이해를 네 가지 능력군으로 체계화한다: semantic anchoring, spherical grounding, reference-frame transformation, depth-aware 3D spatial reasoning. 이 분류는 수집 데이터 설계와 학습 신호 구성의 기저가 된다.
메타데이터 기반 대규모 ERP 파노라마 데이터셋 구축
570K-scale ERP 파노라마를 기반으로 geometry-aware, depth-aware supervision 신호를 구성하고, 이를 기반으로 capability-aligned instruction tuning 데이터를 instantiate한다. 이 데이터 그래프는 각 엔티티의 위치, 깊이, 관계를 구조적으로 표현한다.
PanoWorld with Spherical Spatial Cross-Attention (SSCA)
SSCA를 도입해 ERP 패치 임베딩 이후 구면 방향 정보를 이용한 spherical tokens를 생성하고, cross-attention으로 시각 토큰과 구면 토큰 간 정보를 교환한다. 이를 통해 geometry-aware 신호를 시각 스트림에 주입하되 원래 백본은 보전한다.
PanoSpace-Bench 및 다운스트림 전이
ERP-native 공간 추론을 평가하는 PanoSpace-Bench를 제안하고, H∗Bench 및 R2R-CE Val-Unseen로의 전이를 입증한다. 제로샷에서의 56.1 overall 성능, H∗ SFT 적용 시 70.1으로 상승하는 등, pano-native 학습이 기존 프례젝트에 대한 일반화 능력을 확보한다.
실증적 성과 및 효율성 이점
파노라마를 직접 입력으로 사용하는 직접 ERP 추론은 perspective-view 회전 기반 접근보다 효율적이며, 1회 전달로 전체 360° 공간을 처리한다. H∗ Bench에서 0-shot 56.1, H∗ SFT 적용 시 70.1 성능으로 개선되었다. R2R-CE Val-Unseen에서 PanoWorld-VLN은 4.98 NE, 59.3 OSR, 54.3 SR, 52.1 SPL를 달성하였다.
핵심 아이디어 이해하기
출발점: ERP 파노라마는 구면 좌표계의 연속 공간으로 다루어야 하며, 시점 변화에 따른 각도 관계를 직관적으로 유지해야 한다. 전제 한계: perspective 이미지 기반 방법은 wrap-around과 시점 의존성을 충분히 모델링하지 못한다. 본 논문은 네 가지 핵심 능력(semantic anchoring, spherical grounding, reference-frame transformation, depth-aware 3D spatial reasoning)을 정의하고, 메타데이터 파이프라인과 SSCA 아키텍처를 통해 ERP 파노라마를 직접 다루는 학습 체계를 제안한다. 결과적으로 ERP-native 입력에서의 추론이 360° 공간 이해에 필요한 구성 요소를 모두 충족하고, 360° 화면 기반 벤치마크에서 기존 방법보다 강력한 성능을 보인다. 마지막으로, PanoSpace-Bench를 통해 제시한 능력군이 실제 응용(비전-언어 내비게이션, 인간 중심 시각 검색)으로의 확장을 뒷받침한다.
방법론
단계1: 지오메트리 preliminaries 및 작업 설정에서 ERP를 yaw/ pitch로 표현하고, panorama를 observer-centered 공간으로 정의한다. 단계2: capablity taxonomy를 제시하고, 이를 기반으로 geometry-aware supervision 신호를 구성하는 메타데이터 파이프라인을 설계한다. 단계3: Patch embedding 이후 spherical tokens를 생성하는 SSCA를 도입하고, visual tokens ↔ spherical tokens 간 cross-attention으로 지오메트릭 정보를 주입한다. 단계4: PANO-native instruction corpus를 기반으로 Qwen3.5-VL 백본에 대해 파노-native 모델 학습을 수행한다. 단계5: PanoSpace-Bench를 통해 카테고리별 능력을 평가하고, H∗Bench 및 R2R-CE로의 전이를 검증한다. 수식/수학적 원리: si = MLP(γ(λi, ϕi))로 구면 위치를 임베딩하고, A = MHA(Q=LN(H(0)), K=LN(S), V=LN(S))로 cross-attention을 수행한 뒤, He(0) = H(0) + α ⊙ A로 토큰을 갱신한다. 학습 설정: 기본 백본은 Qwen3.5-VL이며, pano-native instruction corpus로 미세조정한다. 8 GPU A100에서 AdamW, 학습률 1e-6, 글로벌 배치 2, 그라디언트 누적 4, 1 epoch.
관련 Figure

메타데이터 그래프를 구성하는 핵심 구성 요소인 이미지 소스, 품질 큐레이션, 탐지-재검출-검증, 깊이 추정이 어떻게 연결되는지 보여준다.
ERP 파노라마 데이터 파이프라인으로, Mixed-source ERP에서 기하학적 검증 및 언어 기반 메타데이터를 구성하는 흐름을 시각화한다.

SSCA의 위치와 역할, patch-level에서의 구면 토큰 도입이 어떻게 비전 토큰과 상호작용하는지 명확히 보여준다.
PanoWorld 아키텍처 다이어그램: Patch embedding, spherical tokens, Cross-Attention, gated residual 업데이트, 그리고 최종 입력으로 들어가는 SSCA 모듈의 흐름.

데이터 구성에서의 편향 및 자주 등장하는 객체군을 보여주며 데이터 구성의 편향이 학습에 미치는 영향을 암시한다.
객체 빈도 분포 히스토그램: ERP 메타데이터에서의 객체 분포를 시각화한다.

훈련 데이터 형식의 다양성과 분포를 확인할 수 있어, 모델 학습에서 어떤 유형의 질문에 노출되었는지 파악하는 데 도움이 된다.
QA 포맷 분포 도표: 생성된 instruction 데이터의 형식 분포를 보여준다.
주요 결과
주요 벤치마크에서 제안된 PanoWorld는 기존 기법 대비 현저한 성능 향상을 보였다. PanoSpace-Bench에서 PanoWorld의 Overall 성능은 56.5로 제시되며, 0-shot에서의 H∗Bench 전체 성능은 56.1, H∗ SFT 적용 시 70.1로 상승한다. HOS/HPS 전이에서도 우수한 성능을 보였으며(R2R-CE Val-Unseen에서 4.98 NE, 59.3 OSR, 54.3 SR, 52.1 SPL), VLN 전이에서도 RGB-only 모델 대비 경쟁력을 확인했다. 4.3 Ablation에서 데이터 능력 모듈의 조합이 성능 향상에 기여함이 확인되었고, SSCA가 초기 삽입 위치에서 가장 효과적임이 확인되었다. 훈련 범위를 확장한 Full pano-native FT 설정이 대부분의 지표에서 최상위를 차지했다.
관련 Figure

실제 사례를 통해 pano-native 이해의 장점과 한계를 시각적으로 확인시켜 주며, 다양한 태스크의 적용 가능성을 보여준다.
사례 연구: PanoWorld의 360° 공간 추론 사례 및 H∗Bench/HOS/HPS를 포함한 다운스트림 태스크 예시
기술 상세
아키텍처: Patch embedding 후 Spherical Spatial Cross-Attention(SSCA) 도입. 구면 토큰 s_i = MLP(γ(λ_i, ϕ_i))를 통해 ERP 픽셀의 구면 방향을 임베딩하고, cross-attention Q=LN(H(0)), K=LN(S), V=LN(S)로 시각 토큰과 구면 토큰 간 정보를 교환한다. 업데이트는 H_e^(0) = H(0) + α ⊙ A로 수행되어, 초기 비전 백본은 불변으로 남는다. 데이터 supervision: 4가지 능력군(semantic anchoring, spherical grounding, reference-frame transformation, depth-aware 3D relation)을 기반으로 ERP-그래프 G = (V, E)에서 노드 vi=(si, ai, bi, di, ci), 간선 e_ij=(Δθ_ij, Δφ_ij, Δd_ij, r^2D_ij, r^3D_ij)로 표현되는 메타데이터 그래프를 구축한다. 학습 데이터: ERP-native instruction corpus를 제조, 7.65M 후보 샘플에서 canonical set 2.998M 샘플을 샘플링. verification 모듈: Detection Verificiation(기하학적 안정성)과 Semantic Verificiation(언어-지역 간 일치성)을 통해 데이터 품질을 보장한다. 학습 데이터의 구성은 Ability family별로 Semantic Anchoring, Angular Grounding, Reference-frame Transformation, Depth-aware 3D Relation 등으로 나뉘며, 모든 모듈의 결합이 최종 성능 향상에 기여한다.
한계점
메타데이터 파이프라인은 오픈-월드 탐지, MLLM 기반 주석, referential re-detection 및 파노라마 깊이 추정에 의존하므로, 이들 구성 요소의 오류가 최종 메타데이터 그래프에 영향을 줄 수 있다. PanoSpace-Bench은 고정된 ERP-추론 능력을 진단하는 벤치마크로, 동적 장면/상호작용 탐지 등은 포함하지 않는다.
실무 활용
360° ERP 파노라마를 직접 활용하는 pano-native 접근법은 공간 이해 및 탐색 문제에 대해 차별화된 해석을 제공한다. 이는 내비게이션, 로봇의 인간 중심 검색, 몰입형 시각 인지 시스템 등에 적용 가능하다.
- 360° 로봇 내비게이션에서 전체 환경을 한 번에 파악하고 목표 지점을 직접 예측
- 몰입형 AR/VR에서 관찰자 중심 공간 추론을 이용한 지오메트리 기반 인터랙션
- 인간 중심 시각 검색 및 경로 예측에서 ERP 기반 단일-스텝 추론으로 대기 시간 감소
- 멀티모달 인터랙션에서 360° 환경에 대한 위치-관계 질의 응답 시스템
코드 공개 여부: 미확인
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.