판별자
에이전트의 행동을 보고 어떤 잠재 변수(스킬)가 사용되었는지 예측하는 네트워크입니다. 서로 다른 잠재 변수가 실제로 구분 가능한 고유한 행동으로 나타나도록 유도하여 행동의 다양성을 확보합니다.