KL 발산
확률 분포 간의 차이를 측정하는 비대칭적 거리로, 두 분포가 일치할 때 0에 접근한다. 본 논문에서는 qϕ(y|x,C)와 π*(y|x) 간의 차이를 최소화하는 학습 목표에 활용된다.