핵심 요약
급격한 기술 발전의 시대에 인간의 광범위한 범용 지능(General Intelligence)과 비교하여 기계 지능을 엄격하게 평가하는 것이 점점 더 중요해지고 도전적인 과제가 되었습니다. 기존의 인공지능(AI) 벤치마크(Benchmark)는 대개 제한된 범위의 인간 활동 내에서 좁은 능력만을 평가합니다. 또한 대부분은 정적(Static)이어서, 개발자들이 명시적 또는 암시적으로 해당 벤치마크에 최적화함에 따라 성능이 빠르게 포화됩니다. 본 연구에서는 AI 시스템에서 인간과 유사한 범용 지능을 평가하는 더 유망한 방법으로, 특히 강력한 형태의 범용 게임 플레이(General Game Playing)를 제안합니다. 즉, 동일한 수준의 경험, 시간 또는 기타 자원을 가진 인간 플레이어와 비교하여, AI가 '생각할 수 있는 모든 인간 게임'을 어떻게 그리고 얼마나 잘 플레이하고 학습하는지를 연구하는 것입니다. 우리는 '인간 게임(Human Game)'을 인간이 인간을 위해 설계한 게임으로 정의하며, 사람들이 상상하고 즐길 수 있는 모든 게임의 공간인 '인간 게임의 멀티버스(Multiverse of Human Games)'가 평가 도구로서 적합하다고 주장합니다. 이러한 비전을 향한 첫 걸음으로, 우리는 AI 게임스토어(AI GameStore)를 소개합니다. 이는 인간 참여형(Humans-in-the-loop) 대형 언어 모델(LLM)을 사용하여 새로운 대표적 인간 게임을 합성하는 확장 가능하고 개방적인 플랫폼으로, 인기 있는 인간 디지털 게임 플랫폼에서 표준화 및 컨테이너화된 게임 환경 변형을 자동으로 소싱하고 조정합니다. 개념 증명으로서, 우리는 애플 앱스토어(Apple App Store)와 스팀(Steam)의 인기 차트를 기반으로 100개의 게임을 생성하고, 7개의 최첨단 시각-언어 모델(VLM)을 대상으로 짧은 플레이 에피소드를 평가했습니다. 최상위 모델들도 대다수의 게임에서 인간 평균 점수의 10% 미만을 기록했으며, 특히 세계 모델 학습(World-model Learning), 기억(Memory), 계획(Planning)이 필요한 게임에서 어려움을 겪었습니다. 마지막으로, 기계에서 인간과 유사한 범용 지능을 측정하고 발전을 촉진하기 위한 실질적인 방법으로서 AI 게임스토어를 구축하기 위한 향후 단계들을 제시하며 결론을 맺습니다.
핵심 기여
인간 게임의 멀티버스(Multiverse of Human Games) 개념 제안
인간이 즐기기 위해 설계된 모든 게임의 공간을 AI의 범용 지능을 평가하기 위한 궁극적인 벤치마크 환경으로 정의함.
확장 가능한 게임 합성 플랫폼 'AI 게임스토어' 개발
LLM과 인간의 협업을 통해 App Store 및 Steam의 게임을 표준화된 AI 학습 환경으로 자동 변환 및 생성하는 시스템을 구축함.
최첨단 시각-언어 모델(VLM)의 범용성 한계 규명
100개의 다양한 게임 환경에서 7종의 최신 VLM을 평가하여, 현재 모델들이 인간 수준의 게임 이해 및 전략 수립 능력에 크게 미치지 못함을 수치로 증명함.
방법론
LLM과 인간 참여형(Human-in-the-loop) 프로세스를 결합하여 실제 상용 게임 플랫폼의 메커니즘을 추출하고, 이를 AI가 상호작용 가능한 컨테이너화된 환경으로 자동 변환하는 파이프라인을 설계했다. 시각-언어 모델(VLM)이 게임 화면을 입력받아 행동을 결정하는 제로샷 및 퓨샷 평가 프레임워크를 적용했다.
주요 결과
100개의 게임 벤치마크에서 평가된 7종의 최첨단 VLM 중 가장 성능이 좋은 모델조차 대다수 게임에서 인간 평균 점수의 10% 미만을 기록했다. 특히 물리적 인과관계 이해가 필요한 세계 모델 학습, 장기적 기억 유지, 복잡한 단계의 계획 수립이 요구되는 게임에서 성능 저하가 두드러졌다.
시사점
기존의 정적 벤치마크를 넘어 실제 인간의 복잡한 활동 영역인 게임을 통해 AI의 진정한 범용성을 측정할 수 있는 동적 평가 체계를 제공한다. 이는 향후 AI 모델이 단순 패턴 인식을 넘어 세계 모델링과 추론 능력을 갖추도록 유도하는 중요한 지표가 될 것이다.
키워드
섹션별 상세
인간 게임의 멀티버스(Multiverse of Human Games) 개념 제안
확장 가능한 게임 합성 플랫폼 'AI 게임스토어' 개발
최첨단 시각-언어 모델(VLM)의 범용성 한계 규명
AI 요약 · 북마크 · 개인 피드 설정 — 무료