핵심 요약
기존의 시각-언어 모델(VLM) 평가는 정적인 이미지에서 객관식 문제를 푸는 방식에 그쳐, 실제 로봇이 3D 공간에서 움직이고 상호작용하는 능력을 측정하기 어려웠다. 이 논문은 가상 환경에서 로봇의 '위치 파악'과 '동작 실행'을 분리하여 정밀하게 진단함으로써, AI가 실제 물리 세계에서 에이전트로 동작하기 위해 필요한 핵심 결함을 찾아낸다.
왜 중요한가
기존의 시각-언어 모델(VLM) 평가는 정적인 이미지에서 객관식 문제를 푸는 방식에 그쳐, 실제 로봇이 3D 공간에서 움직이고 상호작용하는 능력을 측정하기 어려웠다. 이 논문은 가상 환경에서 로봇의 '위치 파악'과 '동작 실행'을 분리하여 정밀하게 진단함으로써, AI가 실제 물리 세계에서 에이전트로 동작하기 위해 필요한 핵심 결함을 찾아낸다.
핵심 기여
생성적 방식의 통합 평가 패러다임 도입
기존의 객관식 VQA 방식에서 벗어나, 2D 좌표와 3D 포즈를 직접 생성하는 방식을 채택하여 모델의 본질적인 공간 추론 능력을 평가한다.
계층적 공간 추론 태스크 설계
속성, 관계, 거리, 방향 등 4가지 주요 공간 요소와 참조 프레임을 조합하여 총 148가지의 세분화된 공간 추론 유형을 정의한다.
물리 기반 시뮬레이션 환경 구축
NVIDIA Isaac Sim을 활용하여 탁상 및 선반 시나리오를 구축하고, 물리 법칙이 적용된 환경에서 로봇의 Pick-and-Place 동작을 검증한다.
VLM의 공간 추론 병목 지점 식별
실험을 통해 현재 VLM들이 위치 파악(Localization)에 비해 실행(Execution) 능력이 부족하며, 특히 3D 회전(Rotation) 이해도가 가장 큰 한계임을 정량적으로 입증한다.
핵심 아이디어 이해하기
기존 VLM의 공간 이해 평가는 주로 VQA(Visual Question Answering) 형식을 취했다. 이는 이미지 내의 객체 간 관계를 텍스트로 답하는 방식인데, 모델이 실제 공간 구조를 이해하기보다는 언어적 편향이나 선택지 간의 힌트를 이용해 정답을 맞히는 한계가 있었다. 특히 로봇 공학에서 중요한 '어디를 잡고 어떻게 움직일 것인가'라는 실행 관점의 평가는 거의 이루어지지 않았다.
ESPIRE는 이를 해결하기 위해 태스크를 '위치 파악(Localization)'과 '실행(Execution)'이라는 두 단계의 생성 문제로 재정의한다. 위치 파악 단계에서는 모델이 이미지 상의 특정 픽셀 좌표(Pointing)를 출력하게 하고, 실행 단계에서는 로봇 팔이 객체를 잡기 위한 6자유도(6-DoF) 포즈를 생성하도록 한다. 이는 모델이 단순히 '왼쪽에 있다'고 말하는 것을 넘어, 실제 3D 좌표계에서 객체의 부피와 방향을 계산해야 함을 의미한다.
또한, 공간 추론의 복잡성을 분해하기 위해 '참조 객체', '참조 프레임(상대적, 내재적, 절대적)', '공간적 양상(거리, 방향 등)'을 체계적으로 조합한다. 예를 들어 '내 시점에서의 왼쪽'과 '객체 자체의 왼쪽'을 구분하여 평가함으로써, 모델이 어떤 논리적 단계에서 실패하는지 현미경처럼 들여다볼 수 있는 진단 도구를 제공한다.
방법론
태스크 사양(Task Specification)은 공간 양상(S), 참조 프레임(F), 참조 객체(O)의 조합인 C = (S, F, O)로 정의된다. 이를 기반으로 'Pick'과 'Place'라는 두 가지 기본 로봇 동작을 수행하며, 각 명령은 3D 씬 그래프(Scene Graph) 상에서 실행 가능한 함수형 프로그램 형태로 표현되어 정답(Ground-truth)을 도출한다.
위치 파악(Localization)은 입력 이미지에 대해 2D 좌표를 출력하는 Pointing 태스크로 구성된다. 모델이 예측한 점이 대상 객체의 세그멘테이션 마스크 내에 포함되는지 여부로 정확도를 측정한다. [이미지와 텍스트 명령 입력 → VLM이 2D 좌표 생성 → 마스크 포함 여부 확인 → 위치 파악 성공 여부 판정]
실행(Execution)은 6-DoF 목표 포즈(위치 및 회전)를 예측하는 과정이다. 예측된 포즈의 유효성은 cuRobo와 같은 모션 플래너를 통해 물리적 도달 가능성(Reachability)과 충돌 여부를 시뮬레이션하여 검증한다. [위치 파악 결과와 씬 정보 입력 → VLM이 3D 위치 및 회전 값 생성 → 모션 플래너 실행 → 동작 성공률(Acceptance Rate) 산출]
시뮬레이션 환경은 Isaac Sim을 기반으로 구축되었으며, Sim-to-Real 간극을 줄이기 위해 다양한 텍스처, 조명, 객체 배치를 무작위화(Randomization)한다. 또한 '반추(Reflection)' 메커니즘을 도입하여, 모델이 이전의 실패 원인을 분석하고 다음 시도에서 수정된 좌표를 생성할 수 있도록 설계했다.
주요 결과
주요 VLM(Gemini 2.5 Pro, Qwen3-VL 등)을 평가한 결과, 모든 모델이 실행(Execution)보다 위치 파악(Localization)에서 훨씬 높은 성능을 보였다. 예를 들어 Gemini 2.5 Pro는 Pick 태스크에서 57.72%의 위치 파악 정확도를 기록했으나, 실제 동작 성공률(Success Rate)은 34.06%에 그쳤다. 이는 모델이 객체가 어디에 있는지는 알지만, 이를 어떻게 물리적으로 조작해야 하는지에 대한 이해가 부족함을 시사한다.
공간적 양상 중 '방향(Orientation)' 추론이 가장 큰 병목 구간으로 확인되었다. 특히 3D 회전(Pitch, Yaw, Roll)을 직접 예측해야 하는 실험에서, 예측해야 하는 축이 늘어날수록 성공률이 급격히 하락했다. 이는 현재의 VLM들이 3D 기하학적 회전 개념을 물리적 환경에 투영하는 데 심각한 결함이 있음을 보여준다.
반추(Reflection) 메커니즘은 위치 파악 단계에서는 성능 향상에 도움을 주었으나, 실행 단계에서는 오히려 성능을 저하시키는 경우가 발생했다. 이는 모델이 실패 원인을 텍스트로는 분석할 수 있어도, 이를 올바른 3D 회전 값으로 변환하는 능력이 뒷받침되지 않기 때문으로 분석된다.
실무 활용
ESPIRE는 로봇용 시각-언어 모델을 개발하는 엔지니어들에게 정밀한 성능 지표를 제공한다. 실제 로봇 하드웨어 없이도 시뮬레이션 상에서 모델의 공간 추론 결함을 파악하고 개선할 수 있어 개발 주기를 단축시킨다.
- 로봇 팔의 Pick-and-Place 정밀도 향상을 위한 VLM 파인튜닝 데이터 생성
- 자율 주행 에이전트의 복잡한 공간 명령 이해도 검증 및 벤치마킹
- VLM의 3D 공간 이해 능력을 강화하기 위한 반추(Reflection) 학습 루프 구축
- 다양한 참조 프레임(내재적 vs 상대적)에 따른 모델의 의사결정 편향 분석
기술 상세
ESPIRE는 65개의 명령군과 148개의 태스크 유형을 통해 공간 추론의 세밀한 진단을 지원한다. 각 태스크는 3D 씬 그래프를 기반으로 한 함수형 프로그램으로 정의되어, '가장 멀리 있는 책의 왼쪽'과 같은 다단계 추론을 체계적으로 생성하고 검증할 수 있다.
참조 프레임의 체계적 분류가 핵심이다. Viewer-centered(상대적), Object-centered(내재적), World-centered(절대적) 프레임을 명시적으로 구분한다. 특히 '내재적 프레임'을 가진 객체(예: 앞면이 명확한 의자)와 그렇지 않은 객체(예: 공)를 구분하여 모델의 객체 중심 좌표계 이해도를 측정한다.
실행 단계의 평가는 SE(3) 공간에서의 6-DoF 예측을 포함한다. 단순히 좌표를 맞히는 것을 넘어, 로봇 그리퍼의 접근 각도(Pitch, Yaw, Roll)를 물리적 제약 조건 내에서 생성해야 한다. 이를 위해 cuRobo 라이브러리를 활용한 실시간 충돌 체크 및 도달 가능성 검사가 수반된다.
Sim-to-Real 전이성을 높이기 위해 3D 자산의 크기를 실제 세계의 규격에 맞게 조정하고, 배경 자산에 실제 재질의 텍스처를 무작위로 적용한다. 인간 대상 실험 결과, ESPIRE의 시뮬레이션 환경과 실제 세계의 공간 추론 간에 96.4%의 높은 상관관계가 있음이 확인되었다.
한계점
실내 환경(탁상 및 선반)에 국한되어 있어, 실외의 광범위한 공간 추론(예: 킬로미터 단위의 거리 추론)이나 전역 참조 프레임(예: 남쪽, 동쪽)을 활용한 시나리오는 포함하지 않는다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료