핵심 요약
기존 로봇 시각은 좁은 화각(Pinhole)에 갇혀 주변 환경을 단편적으로만 파악했으나, 이 논문은 360도 파노라마 영상을 활용해 사각지대 없는 행동 예측을 가능하게 한다. 초고해상도 영상의 왜곡 문제를 해결하는 학습 불필요(Training-free) 파이프라인을 통해 실무 로봇의 상황 인지 능력을 획기적으로 높일 수 있다.
왜 중요한가
기존 로봇 시각은 좁은 화각(Pinhole)에 갇혀 주변 환경을 단편적으로만 파악했으나, 이 논문은 360도 파노라마 영상을 활용해 사각지대 없는 행동 예측을 가능하게 한다. 초고해상도 영상의 왜곡 문제를 해결하는 학습 불필요(Training-free) 파이프라인을 통해 실무 로봇의 상황 인지 능력을 획기적으로 높일 수 있다.
핵심 기여
파노라마 어포던스 예측 작업 정의
기존의 좁은 시야를 벗어나 360도 전방위 환경에서 로봇이 상호작용 가능한 영역을 찾는 새로운 연구 분야를 개척했다.
PAP-12K 데이터셋 구축
12K 초고해상도 파노라마 이미지 1,000여 장과 12,000개 이상의 정교한 질의응답 쌍 및 마스크를 포함한 대규모 벤치마크를 공개했다.
PAP 프레임워크 제안
인간의 중심와 시각 시스템에서 영감을 얻어, 별도의 학습 없이도 파노라마의 기하학적 왜곡을 극복하고 정밀한 마스크를 생성하는 파이프라인을 개발했다.
재귀적 시각 라우팅(RVR) 도입
그리드 프롬프팅을 통해 VLM이 거대한 이미지 내에서 목표 객체의 위치를 단계적으로 좁혀나가는 효율적인 탐색 메커니즘을 구현했다.
핵심 아이디어 이해하기
기존 어포던스 예측은 핀홀 카메라 모델에 의존하여 화각이 좁고 정보가 단편적이다. 이는 로봇이 주변을 살피기 위해 계속 몸을 돌려야 하는 비효율을 초래하며, 주변부나 후방의 중요한 상호작용 기회를 놓치게 만든다. 이러한 한계는 로봇의 의사결정 속도를 늦추고 복잡한 환경에서의 임무 수행 능력을 저하시킨다.
파노라마 영상은 360도 시야를 제공하지만, 초고해상도로 인한 연산 부담과 구형 투영(ERP) 방식 특유의 심한 기하학적 왜곡이 VLM의 성능을 저하시킨다. PAP는 이를 해결하기 위해 인간이 넓은 시야로 대상을 찾은 뒤 시선을 고정해 자세히 보는 방식을 모방한다. 즉, 전체를 훑어 위치를 찾고, 그 부분만 왜곡 없이 확대해서 보는 전략을 취한다.
먼저 VLM이 그리드 프롬프트를 통해 대략적인 위치를 찾고(Recursive Visual Routing), 해당 영역을 왜곡 없는 평면 영상으로 변환(Adaptive Gaze)한 뒤, 전문 모델로 정밀한 마스크를 딴다. 이 과정을 통해 학습 없이도 기존 모델보다 훨씬 정확하게 행동 가능 영역을 찾아내며, 로봇이 한 번의 촬영만으로 주변의 모든 행동 가능성을 파악할 수 있게 한다.
방법론
Recursive Visual Routing (RVR). 4x3 숫자 그리드를 이미지에 겹쳐 VLM이 목표가 포함된 그리드 번호를 선택하게 한다. [전체 파노라마 입력 → VLM의 그리드 번호 선택 → 선택 영역 크롭 및 재분할 → 목표 객체로의 단계적 줌인] 과정을 거쳐 연산 효율성을 유지하며 위치를 특정한다.
Adaptive Gaze (AG). RVR로 찾은 구형 영역의 중심을 카메라의 주점으로 정렬하고, 영역 크기에 맞춰 화각(FoV)을 조정하여 평면(Tangent Plane)에 투영한다. [구형 좌표계 입력 → 탄젠트 평면 투영 연산 → 왜곡 제거된 원근 영상 출력]을 통해 2D 기반 파운데이션 모델들이 학습 데이터와 유사한 도메인에서 동작하게 돕는다.
Cascaded Affordance Grounding. 왜곡이 제거된 영상에서 Open-Vocabulary Detector(Rex-Omni)로 바운딩 박스를 생성하고, 이를 SAM 2의 프롬프트로 사용하여 픽셀 단위 마스크를 추출한다. [원근 영상과 객체 설명 입력 → 바운딩 박스 생성 → SAM 2 마스크 추출 → 역투영 변환 → 최종 파노라마 마스크] 순으로 정밀한 결과를 얻는다.
주요 결과
PAP-12K 벤치마크에서 PAP 프레임워크는 gIoU 71.56%, cIoU 62.30%를 기록하며 기존 SOTA 모델인 A4-Agent(gIoU 62.55%)를 크게 앞질렀다. 특히 객체가 매우 작거나 경계선에 걸쳐 있는 'Hard' 데이터셋에서 성능 차이가 더욱 두드러졌으며, 이는 파노라마 특유의 왜곡을 효과적으로 해결했음을 보여준다.
Ablation Study 결과, Adaptive Gaze 모듈을 제거했을 때 정확도가 급격히 하락하여 파노라마 왜곡 제거가 성능의 핵심임이 입증됐다. 또한 단순 텍스트 설명보다 시각적 그리드 프롬프트(VGP)를 사용하는 것이 VLM의 공간 인지 능력을 극대화하여 위치 탐색 정확도를 높이는 것으로 나타났다.
실무 활용
별도의 파노라마 데이터 학습 없이 기존 VLM과 세그멘테이션 모델을 조합해 즉시 사용 가능하다. 초고해상도 처리에 최적화되어 실시간 로봇 제어 및 가상 현실 환경 분석에 적합하다.
- 가정용 서비스 로봇의 360도 주변 환경 인지 및 도구 사용 계획 수립
- 자율 주행 로봇의 사각지대 없는 장애물 회피 및 상호작용 영역 탐색
- VR/AR 환경에서의 사용자 행동 의도 예측 및 인터페이스 가이드 생성
기술 상세
PAP는 Equirectangular Projection(ERP) 이미지의 고질적인 문제인 극지방 왜곡과 경계 불연속성을 해결하기 위해 Spherical-to-Perspective 투영 기법을 도입했다. 이는 사전 학습된 2D 모델들의 도메인 갭을 학습 없이 메우는 효과적인 어댑터 역할을 한다.
RVR 단계에서는 동적 해상도 적응 전략을 사용한다. 첫 라운드에서는 2000x1000으로 다운샘플링하여 전체 맥락을 파악하고, 두 번째 라운드에서는 1500x1000으로 해상도를 높여 세부 정보를 추출함으로써 토큰 제한 문제를 해결하고 정밀도를 높인다.
Grounding 단계에서 Rex-Omni와 SAM 2를 결합한 계층적 구조를 채택했다. RVR이 배경 노이즈를 필터링해주기 때문에 OVD 모델은 좁은 영역 내에서 훨씬 적은 오탐지(False Positive)로 정확한 객체 검출이 가능하며, SAM 2의 제로샷 성능을 극대화한다.
한계점
객체가 그리드 경계선에 아주 미세하게 걸쳐 있을 경우, RVR이 하나의 그리드만 선택하여 객체가 절반으로 잘리는 현상이 발생할 수 있다. 이를 방지하기 위해 Adaptive Gaze 단계에서 약 10도의 여유 마진을 추가했으나 완벽한 해결책은 아니다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료