에이지 오브 엠파이어 2 빌드 오더 생성을 통한 LLM 벤치마크 결과

핵심 요약

대형 언어 모델(LLM)의 코딩 최적화 및 전략적 사고 능력을 평가하기 위해 에이지 오브 엠파이어 2(AoE 2) 빌드 오더 생성 벤치마크가 수행되었다. 이 테스트는 모델이 전용 DSL(Domain Specific Language) 문법을 준수하면서 1,000행 이상의 JSON 게임 데이터를 분석하고 4가지 전략적 목표를 달성하는 능력을 측정한다. 실험 결과 대부분의 모델이 스크립트 작성에는 성공했으나 성능 격차가 컸으며, Claude 3 Opus는 실제 게임 지식을 활용하는 수준 높은 결과물을 보여주었다. 이번 벤치마크는 학습 데이터에 없는 새로운 규칙에 대한 모델의 적응력과 긴 컨텍스트 유지 능력을 평가하는 유효한 지표가 되었다.

배경

LLM 추론 및 컨텍스트 윈도우 개념, JSON 데이터 구조 이해, DSL(Domain Specific Language) 개념

대상 독자

LLM 벤치마크 설계자 및 AI 에이전트 개발자

의미 / 영향

이 벤치마크는 LLM이 단순히 코드를 복사하는 것이 아니라 낯선 규칙과 방대한 데이터 속에서 전략적 의사결정을 내릴 수 있는지 평가하는 새로운 기준을 제시한다. 게임과 같은 복잡한 도메인을 활용한 테스트는 향후 더 정교한 AI 에이전트 개발의 밑거름이 될 것이다.

섹션별 상세

벤치마크는 LLM이 AoE 2의 전용 DSL 파일을 생성하는 능력을 통해 코딩 최적화와 에이전트적 코딩 능력을 평가한다. 1,000행에 달하는 JSON 데이터에서 핵심 요소를 찾아내는 '바늘 찾기(Needle in a haystack)' 능력과 엄격한 DSL 문법 준수 여부가 핵심 평가 항목이다. 모델은 게임 데이터, 문법 가이드, 빈 빌드 오더 템플릿을 입력받아 전략적 목표를 달성해야 하며 이는 단순한 코드 작성을 넘어선 전략적 사고를 요구한다.

테스트 결과 모델 간의 실력 차이가 명확하게 드러났으며 전반적인 성능은 기대치에 미치지 못했다. Claude 3 Opus는 단순한 무작위 생성을 넘어 실제 게임 지식을 보유한 듯한 수준 높은 초안을 작성하여 월등한 성능을 보였다. 반면 Codex 5.3과 같은 모델은 기본 프롬프트에서 조기에 생성을 중단하는 '게으름(Laziness)' 현상을 보였으나, 추가적인 가이드를 제공했을 때 훨씬 나은 결과물을 생성할 수 있는 잠재력을 확인했다.

모델들은 컨텍스트 부패(Context rot)와 분포 외(Out-of-distribution) 코딩 과제에서 상당한 어려움을 겪었다. DSL 문법이 독창적이고 엄격하여 기존 학습 데이터에 존재하지 않는 형태임에도 불구하고, 모든 테스트 모델이 실행 가능한 스크립트를 작성하는 데는 성공했다. 이는 LLM이 낯선 프로그래밍 언어 구조를 파악하고 적용하는 기초적인 추론 능력을 갖추고 있음을 시사하며, 컨텍스트가 길어질수록 정보 유지력이 떨어지는 한계점도 동시에 노출했다.

실무 Takeaway

LLM의 코딩 능력 평가 시 학습 데이터에 없는 독창적인 DSL을 활용하면 모델의 실제 추론 및 최적화 능력을 더 정확히 측정할 수 있다.
대규모 JSON 데이터(1,000행 이상)를 처리할 때 발생하는 컨텍스트 부패 현상이 모델의 최종 결과물 품질에 직접적인 영향을 미치므로 이에 대한 관리가 필수적이다.
모델의 생성 중단이나 게으름 현상은 프롬프트 엔지니어링이나 단계별 가이드를 통해 극복 가능하며 이는 에이전트 설계 시 중요한 고려 사항이다.

언급된 리소스

Demominebench.ai