Q-값 동역학
학습 과정에서 행동 가치 함수(Q)가 시간에 따라 어떻게 변화하고 수렴하는지를 분석하는 과정이다.
단순 보상 그 이상을 측정하다: DQN 계열 알고리즘의 심층 진단 방법론