Yare AI Arena: LLM 간의 자바스크립트 코딩 대결 토너먼트 결과

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

Yare AI Arena는 LLM들이 자바스크립트 코드를 직접 작성하여 9대9 유닛 전투를 수행하는 1대1 토너먼트 환경이다. 각 모델은 게임 상태를 ASCII 텍스트로 입력받아 유닛의 이동과 공격 로직을 반복적으로 개선하며 승리를 목표로 한다. 테스트 결과 Gemini 3.1 Pro가 50경기 중 단 4패만을 기록하며 압도적인 성능을 보였으며, Claude Sonnet 4.6이 상위 모델인 Opus 4.6을 앞서는 의외의 결과가 나타났다. 이는 LLM의 실시간 코드 생성 및 전략적 추론 능력을 평가하는 새로운 벤치마크로서의 가능성을 보여준다.

배경

JavaScript 기초 문법, LLM 프롬프트 엔지니어링 및 피드백 루프 개념, 기본적인 게임 로직 및 알고리즘 이해

대상 독자

LLM 벤치마킹, 코딩 에이전트 개발 및 AI 전략 추론에 관심 있는 엔지니어

의미 / 영향

이 테스트는 LLM이 단순히 정적인 코드를 작성하는 것을 넘어 실행 결과를 분석하고 전략을 수정하는 에이전트로서의 역량을 보여준다. 특히 특정 모델들이 반복 학습 없이도 컨텍스트 내 피드백만으로 성능을 획기적으로 개선할 수 있음을 입증한다.

섹션별 상세

Yare AI Arena는 9개의 유닛이 장애물과 회복 포드가 있는 전장에서 전투를 벌이는 1대1 라운드 로빈 토너먼트 방식이다. 모델은 게임 상태를 ASCII 텍스트로 입력받아 유닛을 제어하는 자바스크립트 코드를 작성하며 복잡한 전략적 판단을 코드로 구현해야 한다. 유닛은 오직 move()와 pew() 두 가지 동작만 수행할 수 있으며 모든 복잡성은 코드의 논리 구조에서 발생한다. 이는 LLM이 제한된 API를 활용해 얼마나 정교한 전술적 코드를 작성할 수 있는지 평가하는 척도가 된다.

javascript

function dist(a, b) { return Math.hypot(a[0] - b[0], a[1] - b[1]); }
function closest_enemy(cat) {
  let best = null;
  let best_dist = Infinity;
  for (let id of cat.sight.enemies) {
    let d = dist(cat.position, cats[id].position);
    if (d < best_dist) {
      best_dist = d;
      best = cats[id];
    }
  }
  return best;
}
for (let cat of my_cats) {
  let enemy = closest_enemy(cat)
  cat.move(enemy.position)
  cat.pew(enemy)
}

가장 가까운 적을 찾아 이동하고 공격하는 기본적인 자바스크립트 유닛 제어 로직 예시

모델의 성능을 극대화하기 위해 단순 코드 작성을 넘어선 반복적 개선 프로세스가 도입됐다. 각 모델은 참조용 Clowder Bot을 상대로 10회 동안 코드 작성, 게임 실행, 리플레이 및 로그 검토를 반복한다. ASCII 보드 스냅샷과 자체 로그를 분석하여 이전 시도의 실수를 수정하는 과정을 거친다. 이러한 루프는 LLM의 자기 성찰 능력과 컨텍스트 내 학습 역량을 직접적으로 보여준다.

다양한 최신 모델들을 대상으로 토너먼트를 진행한 결과 특정 모델의 압도적인 우위가 확인됐다. Gemini 3.1 Pro는 50번의 경기 중 단 4패만을 기록하며 다른 모든 모델을 큰 차이로 제쳤다. Claude Sonnet 4.6은 상위 모델인 Opus 4.6보다 모든 매치업 형식에서 더 나은 성과를 내는 이변을 일으켰다. 모델의 파라미터 규모나 일반적인 벤치마크 순위가 실제 코딩 및 전략 수행 능력과 항상 일치하지 않음을 시사한다.

경기가 진행됨에 따라 모델의 적응력과 성능 향상 폭에서도 차이가 나타났다. GPT-5.3 Codex는 경기 횟수가 늘어날수록 급격한 성능 향상을 보이며 순위권으로 진입했다. 10경기 포맷에서 GPT-5.3 Codex는 결국 Opus와 GPT-5.4를 모두 추월하는 결과를 냈다. 특정 아키텍처가 반복적인 피드백을 통한 전략 최적화에 더 효율적일 수 있음을 증명한다.

실무 Takeaway

Gemini 3.1 Pro와 Claude Sonnet 4.6은 복잡한 자바스크립트 게임 로직 생성에서 기존 모델들을 압도하는 실질적 코딩 역량을 보유했다.
LLM 에이전트 개발 시 실행-검토-수정의 피드백 루프를 구축하면 모델의 초기 성능 한계를 극복하고 전략을 고도화할 수 있다.
텍스트 기반의 ASCII 환경은 멀티모달 기능 없이도 LLM의 공간 추론과 논리적 판단력을 정밀하게 측정하는 효율적인 벤치마크가 된다.

function dist(a, b) { return Math.hypot(a[0] - b[0], a[1] - b[1]); } function closest_enemy(cat) { let best = null; let best_dist = Infinity; for (let id of cat.sight.enemies) { let d = dist(cat.position, cats[id].position); if (d < best_dist) { best_dist = d; best = cats[id]; } } return best; } for (let cat of my_cats) { let enemy = closest_enemy(cat) cat.move(enemy.position) cat.pew(enemy) }

Yare AI Arena: LLM 간의 자바스크립트 코딩 대결 토너먼트 결과

핵심 요약

배경

대상 독자

의미 / 영향

섹션별 상세

실무 Takeaway

Yare AI Arena: LLM 간의 자바스크립트 코딩 대결 토너먼트 결과

핵심 요약

배경

대상 독자

의미 / 영향

섹션별 상세

실무 Takeaway

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드