PokeGym: 시각 중심의 장기적 과업 수행을 위한 멀티모달 모델 벤치마크

기존의 멀티모달 모델(VLM) 평가는 정적인 이미지 이해나 단순한 2D 환경에 치중되어 실제 3D 세계에서의 자율 행동 능력을 측정하기 어려웠다. 이 논문은 복잡한 3D 오픈월드 게임인 '포켓몬 레전드: Z-A'를 활용해 모델이 순수하게 시각 정보만으로 장기적인 계획을 세우고 물리적 장애물을 극복하는 능력을 엄격하게 평가하는 새로운 기준을 제시한다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

관련 Figure

#1Diagram
PokeGym이 기존의 2D 타일 기반, 상태 기반 입력, 수동 평가 방식에서 벗어나 3D 월드, 시각 전용 입력, 자동화된 평가 시스템을 갖추었음을 시각적으로 보여준다. 이는 벤치마크의 설계 철학인 '현실적인 3D 환경'과 '확장 가능한 평가'를 강조한다.
기존 벤치마크와 PokeGym의 차이점을 비교한 다이어그램

핵심 기여

PokeGym 벤치마크 구축

포켓몬 레전드: Z-A 게임 환경을 기반으로 내비게이션, 상호작용, 전투 등 30개의 장기적 과업(30~220단계)을 포함하는 3D 멀티모달 행동 벤치마크를 설계했다.

엄격한 시각 중심 격리 환경

모델에게 게임 내부 상태(좌표 등)를 제공하지 않고 오직 RGB 픽셀 정보만 입력으로 제공하며, 성공 여부는 메모리 스캐닝(AOB)을 통해 독립적으로 검증하는 자동화 평가 체계를 구축했다.

지침 세분화를 통한 능력 분해

시각 가이드(Visual-Guided), 단계별 지침(Step-Guided), 목표만 제시(Goal-Only)의 세 가지 수준으로 지침을 나누어 모델의 시각적 접지, 의미론적 추론, 자율 탐색 능력을 개별적으로 분석할 수 있게 했다.

물리적 교착 상태(Deadlock) 병목 현상 발견

VLM의 주요 실패 원인이 고차원적 계획 수립보다는 벽에 끼이는 등의 물리적 교착 상태 회복 능력 부족에 있음을 밝혀내고, 모델 성능에 따른 메타인지적 차이(Aware vs Unaware)를 규명했다.

핵심 아이디어 이해하기

기존의 VLM은 이미지 속의 물체를 찾는 '시각적 접지(Visual Grounding)'나 텍스트 지시를 따르는 능력은 뛰어나지만, 연속적인 행동이 필요한 3D 환경에서는 취약하다. 이는 모델이 현재 보고 있는 2차원 화면을 3차원 공간으로 이해하고, 자신의 이전 행동이 환경에 어떤 변화를 주었는지 파악하는 '공간적 직관'이 부족하기 때문이다.

PokeGym은 모델을 복잡한 3D 지형과 가변적인 카메라 시점을 가진 게임 환경에 던져놓음으로써 이 한계를 시험한다. 모델은 단순히 물체를 식별하는 것을 넘어, 장애물에 막혔을 때 카메라를 돌려 주변을 살피고(Viewpoint dependency), 보이지 않는 벽이나 복잡한 지형지물을 인지하여 경로를 수정해야 한다.

실험 결과, 성능이 낮은 모델은 자신이 벽에 막혀 움직이지 못함에도 불구하고 '앞으로 잘 가고 있다'고 착각하는 '인지하지 못한 교착 상태(Unaware Deadlock)'에 빠지는 반면, 고성능 모델은 막혔음을 인지하면서도 구체적인 탈출 방법을 찾지 못하는 '인지한 교착 상태(Aware Deadlock)'를 보였다. 이는 VLM 아키텍처에 명시적인 공간 지각 능력을 통합해야 함을 시사한다.

방법론

PokeGym은 Ryujinx 에뮬레이터를 기반으로 구축되었으며, 모델은 GPU 텍스처에서 직접 추출된 RGB 프레임만을 입력받는다. 관찰 인터페이스는 현재 프레임 외에도 이전 프레임(시간적 피드백)과 좌우 시야(공간적 확장)를 선택적으로 제공하여 모델의 인지 범위를 조절할 수 있게 설계되었다.

모델의 출력은 'MoveForward', 'RotateLeft'와 같은 고수준 행동(Discrete) 또는 조이스틱 좌표와 지속 시간을 직접 제어하는 파라미터 제어(Continuous) 방식 중 하나를 선택한다. [모델이 텍스트 형태의 행동 명령을 출력] → [Action Interface가 이를 에뮬레이터 입력 신호로 변환] → [게임 내 캐릭터가 동작 수행] → [환경 단계(Environment Step) 진행] 순으로 실행된다.

평가는 Array of Bytes(AOB) 메모리 스캐닝 기술을 활용한다. [게임 실행 중 특정 메모리 주소의 바이트 패턴을 검색] → [캐릭터의 실시간 좌표 및 퀘스트 플래그 추출] → [사전에 정의된 성공 조건과 비교] → [성공 여부 판정] 과정을 거친다. 이 방식은 모델에게 내부 상태를 노출하지 않으면서도 인간의 개입 없이 객관적이고 확장 가능한 평가를 가능하게 한다.

관련 Figure

#3Diagram
VLM 결정 모듈, 관찰 인터페이스, 행동 인터페이스, 그리고 메모리 스캐닝 기반의 자동 평가 인터페이스 간의 데이터 흐름을 상세히 나타낸다. 특히 GPU 텍스처에서 직접 픽셀을 추출하고 AOB 스캐닝으로 성공을 검증하는 격리 구조를 설명한다.
PokeGym의 전체 시스템 아키텍처 구조도

주요 결과

Claude-Sonnet-4.6, GPT-5.2, Gemini-3-Pro 등 주요 VLM을 평가한 결과, 시각 가이드가 있는 환경에서 Claude-Sonnet-4.6이 60.56%의 성공률로 가장 우수한 성능을 보였다. 하지만 지침이 추상화될수록(Goal-Only) 성능이 급격히 하락했으며, 특히 복잡한 과업(Mixed)에서는 Gemini-3-Pro를 제외한 대부분의 모델이 50% 미만의 낮은 성공률을 기록했다.

물리적 교착 상태(Deadlock) 분석에서 성공률과 비효율적 이동(Ineffective Moves, IM) 사이에는 강한 음의 상관관계(r = -0.52 ~ -0.65)가 나타났다. 이는 모델이 고차원적 계획을 세우더라도 실제 물리적 충돌을 해결하지 못하면 과업 완수가 불가능함을 의미한다. 또한, 모델에게 단순히 '막혔다'는 텍스트 피드백을 주는 것보다 강제로 뒤로 이동시키는 등의 물리적 개입이 성공률 향상에 더 효과적이었다(31.67% → 40.00%).

관련 Figure

#5Chart
GPT-5.2는 막혔음을 인지하는 'Aware Deadlock' 비율이 높은 반면, Qwen3-VL과 같은 모델은 인지하지 못하는 'Unaware Deadlock' 비율이 압도적으로 높음을 보여준다. 이는 모델의 성능 수준에 따라 실패의 양상이 메타인지적으로 다름을 증명한다.
모델별 실패 원인(교착 상태, 길 잃음, 실행 실패 등)의 비율을 나타낸 차트

기술 상세

PokeGym은 에뮬레이터 수준에서 모델과 환경을 격리하는 코드 수준의 고립(Code-level isolation)을 강제한다. 모델은 오직 픽셀 정보만 볼 수 있으며, 평가기는 별도의 프로세스에서 메모리를 읽어 성공 여부를 판단한다. 이는 기존 벤치마크들이 API를 통해 좌표 정보를 제공하거나 인간이 직접 평가해야 했던 한계를 극복한 지점이다.

아키텍처적으로는 VLM의 장기 기억 능력을 테스트하기 위해 '자기 성찰(Self-Reflection)' 모듈을 옵션으로 제공한다. 이 모듈은 매 5단계마다 이전 행동 이력을 요약하고 전략을 수정하여 단기 기억(Short-term memory)과 경험 라이브러리(Experience library)를 업데이트한다. 실험 결과, Gemini-3-Pro와 같은 강력한 모델에서는 이 모듈이 성능 향상에 기여했으나, 약한 모델에서는 오히려 성능을 저하시키는 메타인지적 격차를 보였다.

한계점

현재 PokeGym은 순수하게 시각적 RGB 관찰에만 집중하고 있어, 소리(Audio)와 같은 다른 감각 정보는 배제되어 있다. 실제 3D 환경이나 게임에서는 소리가 위험 감지나 상호작용에 중요한 역할을 하므로, 향후 멀티모달 감각 통합에 대한 연구가 필요하다. 또한 현재는 제로샷(Zero-shot) 평가 위주로 설계되어 대규모 에이전트 학습을 위한 보상 설계는 초기 단계에 머물러 있다.

실무 활용

3D 환경에서 자율적으로 행동하는 AI 에이전트 개발을 위한 엄격한 평가 도구로 활용될 수 있다. 특히 로봇 공학이나 게임 AI 분야에서 시각 정보만으로 복잡한 지형을 탐색하고 상호작용하는 모델의 성능을 검증하는 데 유용하다.

3D 게임 내 자율 플레이어 에이전트의 공간 추론 능력 벤치마킹
로봇 제어를 위한 VLM의 시각적 접지(Visual Grounding) 및 경로 계획 성능 평가
에뮬레이터 기반의 자동화된 AI 에이전트 학습 및 평가 파이프라인 구축
VLM의 물리적 충돌 회복 및 오류 수정 메커니즘 연구

코드 공개 여부: 공개

코드 저장소 보기

키워드

VLM(시각 언어 모델)Embodied AI(체화된 인공지능)Benchmark(벤치마크)3D Spatial Reasoning(3차원 공간 추론)Deadlock Recovery(교착 상태 회복)Autonomous Agent(자율 에이전트)

PokeGym: 시각 중심의 장기적 과업 수행을 위한 멀티모달 모델 벤치마크

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

관련 Figure

핵심 기여

PokeGym 벤치마크 구축

엄격한 시각 중심 격리 환경

지침 세분화를 통한 능력 분해

물리적 교착 상태(Deadlock) 병목 현상 발견

핵심 아이디어 이해하기

방법론

관련 Figure

주요 결과

관련 Figure

기술 상세

한계점

실무 활용

3D 게임 내 자율 플레이어 에이전트의 공간 추론 능력 벤치마킹
로봇 제어를 위한 VLM의 시각적 접지(Visual Grounding) 및 경로 계획 성능 평가
에뮬레이터 기반의 자동화된 AI 에이전트 학습 및 평가 파이프라인 구축
VLM의 물리적 충돌 회복 및 오류 수정 메커니즘 연구

코드 공개 여부: 공개

코드 저장소 보기

PokeGym: 시각 중심의 장기적 과업 수행을 위한 멀티모달 모델 벤치마크

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

PokeGym: 시각 중심의 장기적 과업 수행을 위한 멀티모달 모델 벤치마크

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드