DOS 게임 'Indianapolis 500'을 위한 강화학습 에이전트 개발기

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

DOS 게임 'Indianapolis 500'을 대상으로 PPO, Transformer, LSTM을 결합한 강화학습 에이전트를 개발하고 학습 전략을 공유함.

배경

사용자가 DOS 게임 'Indianapolis 500'을 강화학습 환경으로 구축하여 PPO와 Transformer 기반 에이전트를 학습시키고 있으며, 보상 설계 및 학습 전략에 대한 피드백을 구하고 있다.

의미 / 영향

고전 게임을 강화학습 환경으로 구축할 때 메모리 텔레메트리 활용이 학습 안정성에 결정적이다. 행동 복제와 PPO 파인튜닝의 조합은 에이전트의 초기 학습과 성능 개선을 위한 효과적인 전략이다.

실용적 조언

행동 복제(Behavior Cloning) 사용 시 특정 행동에 대한 과적합을 방지하기 위해 PPO 파인튜닝을 병행할 것.
랩 완료 감지 등 핵심 이벤트는 픽셀 추론보다 게임 메모리 텔레메트리 값을 직접 활용하는 것이 훨씬 정확함.

섹션별 상세

사용자는 DOSBox 메모리에서 직접 텔레메트리 데이터를 읽어와 픽셀 기반 학습의 한계를 극복했다. 픽셀 정보 대신 속도, 위치, 랩 완료 여부 등의 메모리 값을 사용하여 랩 완료 감지의 정확도를 높였다. 이는 보상 시스템의 신뢰성을 확보하는 데 핵심적인 역할을 했다.

초기 학습에는 행동 복제(Behavior Cloning)를 사용하여 인간의 주행 데이터를 학습시켰으나, 특정 행동에 편향되는 문제가 발생했다. 이를 해결하기 위해 PPO 파인튜닝으로 전환하여 텔레메트리 기반 보상을 통해 에이전트가 스스로 주행 전략을 개선하도록 유도했다.

에이전트 아키텍처는 Transformer와 LSTM을 결합한 Recurrent PPO를 사용한다. 현재 38만 타임스텝을 학습했으며, 충돌이나 정지 상태에 대한 페널티를 강화하여 학습 효율을 높이는 실험을 진행 중이다.

용어 해설

Behavior Cloning: — 전문가의 데이터를 모방하여 정책을 학습하는 강화학습 기법. 초기 학습 단계에서 에이전트가 기본적인 행동 패턴을 빠르게 익히도록 돕는 데 사용된다.
Recurrent PPO: — PPO 알고리즘에 LSTM이나 GRU 같은 순환 신경망을 결합한 형태. 에이전트가 과거의 상태 정보를 기억하여 복잡한 환경에서 더 나은 의사결정을 내리도록 돕는다.
Telemetry: — 게임 메모리에서 직접 데이터를 읽어와 상태를 파악하는 방식. 픽셀 기반 인식보다 정확한 정보를 제공하여 보상 시스템의 신뢰성을 높인다.

언급된 도구

DOSBox중립

게임 에뮬레이션 및 메모리 접근