모드 탐색
확률 분포의 여러 정점 중 가장 확률이 높은 하나의 정점(Mode)에만 집중하여 학습하려는 성질이다. Reverse KL Divergence의 특징이며, 일관되고 명확한 답변이 필요한 수학적 추론 모델 학습에 주로 활용된다.