RL 토이박스: 스네이크부터 멀티에이전트 축구까지 다양한 강화학습 게임 라이브러리 공유

핵심 요약

다양한 고전 게임 환경에서 DQN, PPO 등 여러 강화학습 알고리즘을 실험하고 학습 과정을 시각화한 오픈소스 프로젝트이다.

배경

작성자가 강화학습(RL) 원리를 깊이 이해하기 위해 직접 구축한 게임 환경들과 각 환경에 최적화된 알고리즘을 적용한 'rl-toybox' 저장소를 공개했다. 초기 Snake 게임 튜토리얼에서 시작하여 현재는 멀티에이전트 PPO를 활용한 축구 게임까지 프로젝트 범위를 확장했다.

의미 / 영향

이 프로젝트는 복잡한 상용 환경 대신 직접 구축한 '토이박스' 환경을 통해 강화학습의 핵심 메커니즘을 실험할 수 있는 유연한 프레임워크를 제공한다. 특히 보상 설계와 네트워크 구조의 변화가 에이전트의 행동에 미치는 영향을 직관적으로 확인할 수 있어 교육적 가치가 높다.

커뮤니티 반응

작성자의 프로젝트 공유에 대해 긍정적인 반응이 나타났으며, 특히 보상 설계나 환경 구축에 대한 피드백을 주고받는 분위기가 형성됐다.

언급된 도구

rl-toybox추천링크

강화학습 알고리즘 실험을 위한 게임 환경 및 에이전트 모음

섹션별 상세

Snake 게임에서 시작하여 점진적으로 복잡한 환경으로 확장했다. 초기에는 간단한 LinearQNet을 사용한 Snake 게임으로 시작했으나, 이후 탑다운 슈팅 게임인 'Bang'과 레이싱 게임 'Vroom'을 추가하며 I/O 및 보상 구조 설계의 어려움을 해결했다. 현재는 11명의 선수가 공유 정책(Shared Policy)을 사용하는 PPO 기반의 축구 게임 'Kick'을 개발 중이다.

각 게임마다 서로 다른 강화학습 알고리즘과 네트워크 설계를 적용했다. Snake는 12개의 관측값과 3개의 액션을 가진 소규모 네트워크를 사용하며, Bang은 Double DQN, Dueling DQN, Prioritized Experience Replay(PER)를 결합한 고도화된 구조를 채택했다. 축구 게임인 Kick은 플레이어당 36개의 관측값과 12개의 액션을 처리하기 위해 [96, 96] 크기의 네트워크를 활용한다.

에이전트의 학습 과정과 보상 설계(Reward Design)에 대한 실무적 경험을 공유했다. 특히 슈팅 게임 'Bang'에서 I/O와 보상 체계 문제로 난관에 부딪혔으나, 지속적인 수정을 통해 실제 학습이 가능한 구조를 안착시켰다. 작성자는 에이전트가 환경을 이해하고 유의미한 행동을 시작하는 과정을 지켜보는 것이 학습의 핵심적인 즐거움임을 언급했다.

실무 Takeaway

단순한 환경(Snake)에서 복잡한 환경(Multi-agent Soccer)으로 단계를 높여가며 RL 알고리즘을 실험하는 것이 학습에 효과적이다.
DQN의 성능 향상을 위해 Double, Dueling, PER과 같은 기법을 조합하는 것이 복잡한 액션 공간에서 유효하다.
멀티에이전트 환경에서는 공유 정책(Shared Policy)을 활용하여 다수의 에이전트를 효율적으로 제어할 수 있다.

언급된 리소스

GitHubrl-toybox GitHub Repository