Language Model Zero (LMZ): 인간의 데이터 없이 스스로 언어와 지식을 학습하는 1차원 월드 시뮬레이션

핵심 요약

인간의 데이터 개입 없이 1차원 기호 세계에서 에이전트들이 스스로 언어를 개발하고 도구 제작 및 협업을 학습하도록 설계된 강화학습 프로젝트이다.

배경

Craftax와 AlphaZero의 개념에서 영감을 받아, 인간의 언어 데이터를 전혀 사용하지 않고 AI가 스스로 지식과 소통 방식을 구축하는 'Language Model Zero(LMZ)' 프로젝트를 제안하며 관련 코드를 공개했다.

의미 / 영향

인간의 언어 데이터가 AI의 성능 한계를 결정짓는 병목 현상이 될 수 있음을 지적하며, 기계 스스로의 언어를 개발하는 것이 AGI로 가는 더 빠른 경로일 수 있음을 시사한다. 특히 1차원 환경의 효율성을 활용한 대규모 병렬 학습은 자원 제약이 있는 연구자들에게 새로운 실험 패러다임을 제공한다.

커뮤니티 반응

작성자가 코드를 공개하며 오픈 소스 참여를 독려했으며, 1차원 환경의 효율성과 AlphaZero 방식의 접근법에 대해 흥미롭다는 반응이 주를 이룬다.

합의점 vs 논쟁점

합의점

1차원 월드가 연산 속도 면에서 2D나 3D보다 압도적으로 유리하다.
인간의 데이터를 배제한 학습이 이론적으로 더 순수한 지능을 형성할 수 있다.

실용적 조언

Kaggle의 무료 GPU(P100) 환경에서 제공된 코드를 즉시 실행하여 실험해 볼 수 있다.
에이전트의 학습 속도가 느릴 경우 커리큘럼 단계나 보상 함수를 조정하여 개선이 가능하다.

언급된 도구

PyTorch추천

에이전트의 뇌(CivBrain)와 학습 알고리즘 구현

Kaggle추천

GPU 가속을 통한 무료 시뮬레이션 실행 환경

섹션별 상세

1차원 월드의 튜링 완전성과 효율성에 기반한다. Wolfram의 Rule 110이 1차원 세포 자동자만으로도 튜링 완전함을 증명했듯이, 복잡한 3D 물리 엔진 대신 단순한 1차원 기호 세계를 통해 AGI 학습 속도를 극대화하고자 한다. 2D 텍스트 월드보다 훨씬 빠른 연산이 가능하며, GPU 병렬 처리를 통해 1024개의 환경에서 동시에 에이전트들을 학습시키는 구조이다.

AlphaZero 방식의 'Language Model Zero' 개념을 도입했다. AlphaGo가 인간의 기보를 학습한 반면 AlphaZero는 독학으로 이를 넘어섰듯, LMZ는 인간의 언어 데이터를 배제하고 기계만의 효율적인 언어를 스스로 개발하게 유도한다. 이는 인간의 편향이나 비효율성을 제거하여 더 압축적이고 강력한 지능을 형성할 수 있다는 가설에 기반한다.

독특한 기호 기반 통신 메커니즘을 구현했다. 에이전트들은 평소 '@' 기호로 표시되지만, 소통할 때는 맵 위에서 특정 대문자(A, S, D 등)로 변하여 자신의 메시지를 시각적으로 노출한다. 별도의 통신 채널 없이 환경 자체를 통해 소통하며, 여러 문자를 조합해 단어를 형성하고 협업이나 문제 해결에 활용하도록 설계되었다.

복잡한 제작 시스템과 커리큘럼 학습을 포함한다. 나무, 돌, 철광석 등 자원을 채집하여 작업대나 용광로에서 컴퓨터, AGI 코어와 같은 고차원 아이템을 제작하는 레시피 매트릭스를 갖추고 있다. 특정 마일스톤(아이템 100개 제작 등)을 달성하면 문명이 발전하며 금고 문이 잠기는 등 환경의 난이도가 동적으로 변하는 커리큘럼 방식을 채택했다.

실무 Takeaway

인간의 언어 데이터 없이도 기계가 스스로 효율적인 소통 체계와 지식을 구축할 수 있다는 가능성을 탐구한다.
1차원 환경은 연산 효율이 매우 높아 AGI 연구를 위한 빠른 실험 반복(Iteration)에 유리하다.
에이전트가 환경 내에서 기호를 직접 노출하여 소통하는 방식은 기계 학습에 최적화된 형태일 수 있다.
AlphaZero의 성공 사례를 언어 모델 영역으로 확장하여 데이터 병목 현상을 해결하려는 시도이다.

언급된 리소스

GitHubCraftax: A Lightning-Fast Benchmark for Open-Ended RL