reward-shaping
에이전트가 복잡한 목표를 달성할 수 있도록 중간 단계마다 적절한 보상을 제공하여 학습 속도와 품질을 높이는 기법이다.
제어는 단순한 최적화가 아니다? 최적 제어와 강화학습의 본질적 차이
슈퍼 마리오를 직접 플레이하는 AI, PPO로 구현하고 실시간으로 관찰하기
슈퍼 마리오를 정복하는 PPO 에이전트: SB3와 FastAPI로 실시간 모니터링까지
Godot 엔진에서 PPO로 소행성을 피하는 비행 AI를 구현하다