입실론-그리디 전략
강화학습에서 탐험(Exploration)과 활용(Exploitation) 사이의 균형을 맞추기 위한 기법이다. 낮은 확률(ε)로 무작위 행동을 하고, 나머지 확률로 현재 가장 높은 보상이 예상되는 행동을 선택한다.
Q-러닝의 학습 과정을 실시간으로 확인하는 RL 플레이그라운드