액션 갭
최적의 행동과 두 번째로 좋은 행동 사이의 Q-값 차이를 의미하며, 모델이 얼마나 명확하게 최적해를 구별하는지 나타낸다.
단순 보상 그 이상을 측정하다: DQN 계열 알고리즘의 심층 진단 방법론