핵심 요약
기존의 게임 에이전트 평가는 모델의 추론 속도와 게임의 실행 속도가 얽혀 있어 순수한 의사결정 능력을 측정하기 어려웠습니다. 이 논문은 게임을 일시 정지하고 추론할 수 있는 샌드박스와 API 기반의 상태 검증 시스템을 도입하여, MLLM이 복잡한 시각적 환경에서 얼마나 정확하게 계획하고 실행하는지 표준화된 지표로 제시합니다.
왜 중요한가
기존의 게임 에이전트 평가는 모델의 추론 속도와 게임의 실행 속도가 얽혀 있어 순수한 의사결정 능력을 측정하기 어려웠습니다. 이 논문은 게임을 일시 정지하고 추론할 수 있는 샌드박스와 API 기반의 상태 검증 시스템을 도입하여, MLLM이 복잡한 시각적 환경에서 얼마나 정확하게 계획하고 실행하는지 표준화된 지표로 제시합니다.
핵심 기여
표준화된 GameWorld 벤치마크 구축
5개 장르(Runner, Arcade, Platformer, Puzzle, Simulation)를 아우르는 34개의 브라우저 기반 게임과 170개의 구체적인 작업을 포함하는 포괄적인 평가 환경을 제공한다.
상태 기반 검증 시스템 도입
시각적 휴리스틱이나 LLM 판정관 대신, 게임 엔진 내부의 API 상태를 직접 확인하는 JavaScript 브리지를 통해 노이즈 없는 결정론적 성공 여부와 진행률을 측정한다.
추론 지연시간 분리 샌드박스
모델이 추론하는 동안 게임 실행을 일시 정지하는 브라우저 기반 샌드박스를 구현하여, 하드웨어 성능에 따른 응답 속도가 아닌 순수 의사결정 품질을 평가할 수 있게 한다.
두 가지 에이전트 인터페이스 비교 분석
키보드/마우스 제어를 직접 생성하는 Computer-Use 에이전트와 의미론적 동작을 수행하는 Generalist 에이전트의 성능 차이와 한계를 체계적으로 분석한다.
핵심 아이디어 이해하기
멀티모달 대형 언어 모델(MLLM)을 게임 에이전트로 활용할 때 가장 큰 걸림돌은 모델이 화면을 보고 다음 행동을 결정하는 '추론 시간' 동안에도 게임 속 시간은 계속 흐른다는 점이다. 이는 모델의 지능이 낮아서가 아니라 단순히 연산 속도가 느려서 실패하는 결과를 초래하며, 평가의 객관성을 해친다.
GameWorld는 이 문제를 해결하기 위해 게임 엔진과 모델 사이의 상호작용을 '동기적 루프'로 재설계했다. 모델이 스크린샷을 분석하는 동안 게임 세계를 멈추고, 모델이 행동을 결정하면 그 행동을 실행한 뒤 다시 다음 상태를 캡처하는 방식이다. 이는 Transformer 아키텍처가 토큰을 하나씩 생성하며 문맥을 파악하듯, 게임의 매 순간을 정적인 데이터 포인트로 변환하여 모델이 충분히 사고할 수 있는 환경을 제공한다.
또한, 기존의 평가 방식이 '화면에 점수가 올랐는가'를 시각적으로 판단(OCR 등)하던 것과 달리, 게임 내부의 변수(좌표, 생명력, 아이템 개수 등)를 직접 읽어오는 API를 구축했다. 이를 통해 모델이 우연히 성공한 것인지, 실제로 목표를 향해 진행 중인지를 수치화된 '진행률(Progress)' 지표로 정확히 산출할 수 있게 되었다.
방법론
GameWorld는 네 가지 핵심 모듈로 구성된다. 첫째, MLLM 에이전트 모듈은 Computer-Use(저수준 제어)와 Generalist(고수준 의미 제어) 인터페이스를 모두 지원하며, 각 모델의 고유한 도구 호출(Tool Calling) 기능을 활용한다. 둘째, 브라우저 기반 샌드박스는 Chromium 환경에서 게임을 실행하며 동적 속도 조절과 결정론적 시드 설정을 지원한다.
셋째, 게임 및 작업 라이브러리는 34개 게임에 대해 170개의 자연어 지시사항과 목표 수치를 정의한다. 넷째, 결과 기반 상태 검증 평가기는 게임 API로부터 직렬화된 상태 데이터를 수신하여 성공 여부를 판정한다. 예를 들어, 마리오 게임에서 '코인 3개 수집' 작업 시, API의 metrics.coins_collected 값이 3에 도달했는지를 실시간으로 체크한다.
동작 프로세스는 [현재 화면 캡처 → 모델 입력 → 모델의 행동 생성 → 샌드박스 내 행동 실행 → 게임 API 상태 업데이트 → 평가기의 진행률 계산] 순으로 반복된다. 특히 'Semantic Action Parsing' 기법을 통해 '점프'와 같은 고수준 명령을 실제 키보드 이벤트인 'Space 키 누름'으로 결정론적으로 매핑하여 모델의 제어 부담을 줄이고 전략적 판단에 집중하게 한다.
주요 결과
13개 베이스 모델을 바탕으로 18개의 모델-인터페이스 쌍을 평가한 결과, 현재 가장 뛰어난 모델도 인간의 성능에 크게 미치지 못하는 것으로 나타났다. Generalist 에이전트 중에서는 Gemini-3-Flash-Preview가 종합 진행률(PG) 41.9%로 1위를 기록했으며, GPT-5.2(40.6%)와 Claude-Sonnet-4.6(39.3%)이 뒤를 이었다. Computer-Use 에이전트 진영에서는 Seed-1.8이 39.8%로 가장 우수한 성적을 거두었다.
장르별로는 Runner 장르에서 모델들이 비교적 높은 진행률을 보였으나, 장기적인 계획과 자원 관리가 필요한 Simulation 장르에서는 모든 모델이 고전하며 매우 낮은 성공률을 기록했다. 특히 실시간 환경(GameWorld-RT) 평가에서는 추론 지연시간이 길어질수록 성능이 급격히 하락하여, 모델의 추론 속도와 행동 타이밍의 결합이 에이전트 성능의 핵심 병목임을 확인했다.
기술 상세
GameWorld 아키텍처는 에이전트 하네스(Harness)를 통해 모델별 프롬프트 템플릿과 컨텍스트 메모리를 표준화한다. 컨텍스트 메모리는 [사용자 프롬프트 → 스크린샷 → 추론 → 행동]의 시퀀스를 롤링 메모리 형태로 유지하여 에이전트가 이전 행동의 실패를 반복하지 않도록 돕는다.
수학적 평가 지표로 성공률(SR) 외에 진행률(PG)을 도입했다. PG는 [ (현재 최고 점수 - 시작 점수) / (목표 점수 - 시작 점수) ] 공식을 통해 0에서 1 사이의 값으로 계산된다. 이는 이진 결과(성공/실패)만으로는 파악하기 어려운 모델의 잠재적 능력을 세밀하게 측정하게 해준다.
또한, 무효 행동률(Invalid Action Rate, IAR)을 측정하여 모델이 정의된 도구 호출 규격을 얼마나 잘 준수하는지 분석한다. 분석 결과, 성능이 낮은 모델일수록 도구 호출 형식을 틀리거나(No-Tool-Call) 허용되지 않은 키를 입력하는(Out-of-Space) 경향이 뚜렷하게 나타났다.
한계점
각 게임 환경에 맞는 고유한 지시사항 세트를 수동으로 설계해야 하므로 새로운 게임을 추가할 때 확장성 문제가 발생할 수 있습니다. 또한 Semantic Action Parsing 과정을 자동화하는 연구가 향후 과제로 남아 있습니다.
실무 활용
이 벤치마크는 실제 웹 환경이나 복잡한 GUI를 다루는 에이전트의 정밀한 성능 측정 도구로 활용될 수 있습니다.
- MLLM 기반 웹 자동화 에이전트의 시각적 이해 및 의사결정 논리 검증
- 게임 개발 과정에서 AI 플레이어의 전략적 행동 패턴 테스트 및 밸런싱
- 에이전트의 장기 기억(Context Memory) 유지 능력 및 지시 이행 신뢰도 평가
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.