핵심 요약
기존 AI 벤치마크는 정적이고 특정 작업에 치우쳐 있어 진정한 일반 지능을 측정하기 어렵다. 이 논문은 인간이 즐기는 수많은 게임을 활용해 AI의 적응력과 종합적 인지 능력을 평가하는 'AI GAMESTORE'를 제안하여, AI가 인간 수준의 지능에 얼마나 도달했는지 객관적으로 측정할 수 있는 새로운 지평을 열었다.
왜 중요한가
기존 AI 벤치마크는 정적이고 특정 작업에 치우쳐 있어 진정한 일반 지능을 측정하기 어렵다. 이 논문은 인간이 즐기는 수많은 게임을 활용해 AI의 적응력과 종합적 인지 능력을 평가하는 'AI GAMESTORE'를 제안하여, AI가 인간 수준의 지능에 얼마나 도달했는지 객관적으로 측정할 수 있는 새로운 지평을 열었다.
핵심 기여
Multiverse of Human Games 개념 제안
인간이 설계하고 즐기는 무한한 게임 공간을 일반 지능 평가의 척도로 정의하고, 이를 통해 AI의 범용적 문제 해결 능력을 측정하는 프레임워크를 수립했다.
AI GAMESTORE 플랫폼 구축
LLM과 인간의 협업(human-in-the-loop)을 통해 실제 앱스토어 게임을 표준화된 p5.js 환경으로 자동 변환하고 평가하는 확장 가능한 파이프라인을 개발했다.
인지 능력 기반 다차원 프로파일링
시각 처리, 계획, 메모리 등 7가지 인지 차원으로 게임을 분류하여 모델의 성능 실패 원인을 특정 인지 요구 사항과 연결해 분석할 수 있는 진단 도구를 마련했다.
최신 VLM 벤치마크 수행 및 격차 입증
GPT-5.2, Claude-Opus-4.5 등 7개 최첨단 모델을 평가하여 인간 대비 10% 미만의 성능과 15-20배 느린 추론 속도 등 심각한 지능 격차를 수치로 증명했다.
핵심 아이디어 이해하기
기존의 AI 평가는 정해진 데이터셋에 과적합(Overfitting)되기 쉽고, 특정 규칙 내에서만 작동하는 좁은 지능을 측정하는 데 그친다. 인간 지능의 핵심은 처음 접하는 복잡한 환경에서도 빠르게 규칙을 파악하고 목표를 달성하는 범용성에 있다. 이를 측정하기 위해 인간이 재미를 느끼고 학습하도록 설계된 방대한 게임 도메인인 'Multiverse of Human Games'를 평가 환경으로 삼았다.
동작 원리는 LLM이 기존 상용 게임의 핵심 메커니즘을 p5.js 코드로 재구현하고, 사람이 직접 플레이하며 재미와 난이도를 검증하는 방식을 취한다. 이는 AI가 단순히 텍스트를 처리하는 능력을 넘어, 동적인 시각 정보를 실시간으로 해석하고 행동으로 옮기는 통합적 지능을 요구하게 만든다.
결과적으로 이 접근법은 AI가 시각적 요소가 단순한 게임에서는 선전하지만, 과거 정보를 기억해야 하거나(Memory), 숨겨진 물리 법칙을 추론해야 하는(World Model Learning) 게임에서는 인간의 인지 능력에 크게 미치지 못함을 명확히 드러낸다.
방법론
Stage 1에서는 Apple App Store와 Steam의 인기 차트에서 7,500개의 게임을 수집하고, Gemini 2.5 Flash를 사용하여 2분 내 플레이 가능 여부와 구현 난이도를 기준으로 100개를 선별한다. Stage 2에서는 Claude-4.5 Sonnet이 게임 설명을 바탕으로 p5.js 코드를 생성하며, 인간 참여자가 직접 플레이하며 버그를 수정하고 게임성을 개선하는 피드백 루프를 거쳐 최종 버전을 완성한다.
Stage 3에서는 전문가 그룹이 각 게임을 7가지 인지 능력(Visual Processing, Spatial-temporal Coordination, Memory, Planning, World Model Learning, Physical Reasoning, Social Reasoning)에 대해 0~5점 척도로 평가하여 인지 프로필을 생성한다. Stage 4에서는 AI 모델용 하네스(Harness)를 구축하여 1초마다 게임 화면 스크린샷을 입력받고 5개의 연속된 행동(0.2초 단위)을 출력하게 하며, 이를 인간 플레이어 106명의 데이터와 비교하여 성능을 정규화한다.
성능 지표 계산 시 [모델의 원시 점수를 인간 플레이어의 중앙값 점수로 나누고 100을 곱한 뒤] → [1에서 10,000 사이로 값을 제한(clipping)하여] → [최종 정규화 점수를 산출하고] → [이 값은 인간의 평균적 성능 대비 모델의 상대적 위치를 나타낸다.]
주요 결과
최고 성능 모델인 GPT-5.2조차 인간 중앙값 점수의 8.5% 수준에 그쳤으며, 대부분의 모델이 인간 기준 10% 미만의 성능을 기록했다. 특히 인간은 2분 만에 끝내는 게임을 AI는 API 호출 지연과 사고 시간으로 인해 평균 20분 이상 소요(12~18배 느림)함이 확인됐다.
인지 능력별 분석 결과, 모델들은 시각 처리(Visual Processing) 점수가 높은 게임에서는 비교적 선전했으나, 메모리(Memory), 계획(Planning), 세계 모델 학습(World Model Learning) 요구치가 높은 게임에서는 성능이 급격히 하락했다. 이는 현재의 VLM이 장기적 맥락 유지와 추론 능력에서 근본적인 한계가 있음을 시사한다.
성능 분포는 이봉형(Bimodal)으로 나타났다. 약 2/3의 게임에서는 어느 정도 점수를 냈으나, 나머지 1/3의 게임(주로 복합적 인지 능력이 필요한 경우)에서는 점수가 거의 0에 수렴하며 완전히 실패했다. 이는 모델이 단일 인지 능력은 갖추었더라도 이를 통합하여 문제를 해결하는 데 어려움을 겪고 있음을 보여준다.
기술 상세
VLM 평가를 위해 게임을 일시 정지하고 스크린샷, 게임 설명, 이전 행동 기록, 사고 과정을 담은 Scratchpad를 프롬프트로 제공하는 인터랙티브 하네스를 설계했다. 모델은 매 초마다 5개의 행동 시퀀스를 생성하며, 각 행동은 0.2초의 게임 시간을 점유한다.
성능 지표로 기하 평균(Geometric Mean)을 사용하여 게임별로 상이한 점수 체계를 통합하고, 인간 중앙값을 100으로 설정하여 상대적 지능 지수를 산출했다. p5.js 기반의 샌드박스 환경을 구축하여 브라우저 환경에서 모델과 인간이 동일한 인터페이스로 상호작용할 수 있도록 표준화했다.
모델 프롬프트는 게임 설명, 모델의 Scratchpad(메모리 역할), 과거 행동 및 근거, 최근 스크린샷, 사용 가능한 액션 목록의 5가지 요소로 구성된다. Scratchpad는 매 API 호출마다 업데이트되어 모델이 게임 상태를 추적하고 계획을 유지할 수 있도록 돕는다.
한계점
현재 구현은 2D 기반의 비교적 단순한 캐주얼 게임에 국한되어 있으며, 복잡한 NPC와의 사회적 상호작용이나 장기적인 서사가 포함된 게임은 다루지 못한다. 또한 현재의 평가 하네스는 실시간 반응이 중요한 게임에서 모델의 지연 시간을 완전히 보상하지 못할 수 있다.
실무 활용
AI GAMESTORE는 기업이나 연구소에서 개발 중인 멀티모달 모델의 실제 환경 적응력과 범용 지능을 객관적으로 테스트하는 벤치마크 플랫폼으로 활용 가능하다.
- VLM 모델의 시각적 추론 및 실시간 의사결정 능력 정밀 진단
- 에이전트 아키텍처의 계획(Planning) 및 메모리 활용 효율성 평가
- 인간과 AI의 협업 게임 환경 구축을 위한 기초 데이터 수집
코드 공개 여부: 비공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.