핵심 요약
기존 LLM 기반 게임 생성은 단순히 코드를 짜는 수준에 그쳐 실행 오류가 잦고 게임의 핵심 재미인 메커니즘의 진화가 부족했다. CreativeGame은 게임 메커니즘을 명시적인 설계 객체로 다루어 버전이 거듭될수록 게임의 규칙이 고도화되는 반복적 진화 파이프라인을 제시한다.
왜 중요한가
기존 LLM 기반 게임 생성은 단순히 코드를 짜는 수준에 그쳐 실행 오류가 잦고 게임의 핵심 재미인 메커니즘의 진화가 부족했다. CreativeGame은 게임 메커니즘을 명시적인 설계 객체로 다루어 버전이 거듭될수록 게임의 규칙이 고도화되는 반복적 진화 파이프라인을 제시한다.
핵심 기여
메커니즘 중심의 반복적 게임 생성 프레임워크
게임 메커니즘을 단순한 텍스트 설명이 아닌 명시적인 계획 및 평가 객체로 정의하여 버전 간의 체계적인 진화를 지원한다.
프로그래밍 신호 기반의 CreativeProxyReward
주관적인 LLM 판단 대신 메커니즘 구현 여부, 구조적 변화, 참신성, 런타임 실행 가능성 등 결정론적 수치를 결합한 보상 체계를 도입했다.
계보 인식형 메모리 아키텍처
동일 계보 내의 버전들이 경험을 공유하면서도 서로 다른 계보 간에는 격리를 유지하여 효율적인 지식 축적을 가능하게 한다.
2단계 런타임 검증 시스템
정적 분석과 브라우저 기반 실행 확인을 생성 루프에 통합하여 코드의 실행 가능성을 보장하고 오류를 자동 수정한다.
핵심 아이디어 이해하기
기존의 LLM 게임 생성은 '창의적인 게임을 만들어줘'라는 단일 프롬프트에 의존하여 결과물의 품질이 불안정하고 개선 방향이 모호했다. 이는 딥러닝의 Loss Function처럼 최적화할 수 있는 명확한 신호가 없기 때문이다. CreativeGame은 이를 해결하기 위해 게임의 핵심 구성 요소인 '메커니즘'을 임베딩 공간의 벡터나 단순 태그가 아닌, 독립적인 규칙 구조체로 격상시킨다.
시스템은 먼저 전역 메커니즘 아카이브에서 관련 지식을 검색하고 이를 바탕으로 구체적인 '메커니즘 계획'을 수립한다. 이는 마치 복잡한 신경망을 설계할 때 레이어의 구조를 먼저 정의하는 것과 같다. 이후 생성된 코드는 실제 런타임 환경에서 실행되어 동작 여부와 계획된 메커니즘의 반영도를 수치화한다.
결과적으로 이 시스템은 단순한 코드 생성을 넘어, 이전 버전에서 무엇이 작동했고 무엇이 부족했는지를 메모리에 기록하며 점진적으로 게임의 깊이를 더해간다. 이는 모델이 매번 처음부터 생성하는 것이 아니라, 기존의 가중치를 미세 조정하며 성능을 높이는 Fine-tuning 과정과 유사한 논리적 흐름을 가진다.
방법론
전체 시스템은 7개의 논리적 에이전트와 10개의 실행 역할로 구성된 멀티 에이전트 파이프라인을 따른다. Planner가 계보 메모리와 전역 아카이브를 쿼리하여 메커니즘 계획을 수립하면, Code Generation 단계에서 Skeleton, Feature, Visual, Refinement의 4단계 서브 프로세스를 거쳐 HTML5 게임 코드를 생성한다.
핵심 메커니즘인 CreativeProxyReward는 7개의 가중치 항과 2개의 게이팅 조건으로 계산된다. Reward = 0.20 * MechanicRealization + 0.25 * StructuralMechanicChange + 0.20 * RelativeMechanicNovelty + 0.15 * LLM_Creativity + 0.10 * RuntimePlayability - 0.15 * CosmeticOnlyPenalty - 0.10 * RegressionPenalty 식을 통해 최종 점수를 산출하며, 런타임 테스트 실패 시 점수를 0.5배로 깎는 Hard Gate를 적용한다.
Runtime Validator는 정적 분석(Tier 1)과 헤드리스 브라우저 실행(Tier 2)을 수행한다. 정적 분석에서는 중괄호 균형, 게임 루프 호출 여부 등 9가지 항목을 검사하며, 오류 발생 시 각 항목당 0.20점의 감점을 부여하고 Repair 에이전트에게 피드백을 전달하여 즉각적인 코드 수정을 유도한다.
주요 결과
71개의 계보와 88개의 노드를 포함하는 데이터셋을 구축하여 분석한 결과, 시스템은 단순한 시각적 개선을 넘어 메커니즘의 재해석을 동반한 진화를 보여주었다. 예를 들어 'Fireboy and Watergirl' 계보에서는 단순한 캐릭터 교체 퍼즐에서 시작해 4세대 버전에서는 과거의 움직임을 기록하고 재생하는 '메모리 릴레이' 메커니즘으로 발전했다.
성능 측면에서 재시도 및 폴백 메커니즘을 적용한 후 파이프라인 성공률은 98% 이상을 기록했으며, 빈 출력 복구율은 3회 이내 시도 시 95%를 상회했다. 계산 비용은 시각적 요소 생성 단계가 전체의 약 34%를 차지하여 가장 높았으며, 평가(27%)와 기능 생성(18%)이 그 뒤를 이었다.
생성된 게임의 평균 창의성 점수는 7.0/10, 실행 가능성 점수는 6.5/10 수준으로 나타났다. 특히 메커니즘 중심의 보상 설계 덕분에 LLM의 점수 포화 현상을 억제하고, 실제 코드 구조의 변화가 보상에 지배적인 영향을 미치도록 유도하는 데 성공했다.
관련 Figure

각 행은 원본 게임(Fireboy & Watergirl, Flappy Bird 등)을 나타내며, 오른쪽으로 갈수록 메커니즘이 고도화되는 과정을 시각적으로 증명한다. 단순한 그래픽 개선이 아니라 게임의 규칙 자체가 어떻게 변하는지 실제 실행 화면을 통해 확인할 수 있다.
4가지 게임 계보의 4단계 진화 과정을 보여주는 자동 데모 그리드
기술 상세
CreativeGame은 게임을 G = (P, S, A, T, O, F, K, W, U, Φ, C, R, M)이라는 13개의 튜플로 정형화하여 정의한다. 여기서 핵심 규칙을 담당하는 G_core와 시각적 요소를 담당하는 G_support를 분리함으로써, 단순한 리스킨(Reskin)이 아닌 구조적 변화(Structural Change)를 보상하도록 설계되었다.
메커니즘 m은 (ΔA, ΔT, ΔO, ΔF, ΔK, ΔW)로 정의되며, 이는 액션 공간이나 전이 로직 등 구조적 층위의 변화를 의미한다. 시스템은 두 버전 간의 메커니즘 차이인 Mechanic Delta(δ)를 추출하여 창의성을 정량화한다. 이는 기존의 텍스트 유사도 기반 평가보다 훨씬 정밀한 기술적 평가 지표를 제공한다.
메모리 업데이트는 q' = (1 - α)q + αr (α=0.3) 식을 사용하는 지수 이동 평균 방식을 채택했다. 이를 통해 과거의 성공적인 패턴을 유지하면서도 새로운 시도에 대한 가치를 지속적으로 갱신한다. 또한 3계층 메모리 구조(계보별 메모리, 전역 아카이브, 일시적 컨텍스트)를 통해 지식의 범위를 체계적으로 관리한다.
한계점
현재 시스템의 보상 수치는 LLM의 점수 포화 현상에 영향을 받을 수 있으며, 실제 사용자의 즐거움(Player Enjoyment)을 직접적으로 측정하는 검증된 지표는 포함되지 않았다. 또한 복잡한 3D 게임이나 고성능 엔진이 필요한 게임 생성에는 한계가 있다.
실무 활용
HTML5 기반의 창의적인 게임 프로토타이핑을 자동화하려는 개발자나 연구자에게 유용하다. 특히 메커니즘 중심의 설계 방식은 교육용 게임이나 실험적인 인디 게임 기획 도구로 활용될 가능성이 높다.
- 기존 게임의 규칙을 변형하여 새로운 장르를 탐색하는 아이디어 뱅크 도구
- 멀티 에이전트 협업을 통한 복잡한 웹 애플리케이션 코드 생성 파이프라인 구축
- 게임 디자인 교육에서 메커니즘의 진화 과정을 시각화하고 분석하는 교육용 플랫폼
코드 공개 여부: 비공개
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.