gumbel-softmax
이산적인 범주형 분포에서 미분 가능한 방식으로 샘플링을 수행할 수 있게 해주는 기법이다. 모델 증류 시 방대한 출력 분포를 효율적으로 샘플링하여 저장 비용을 줄이는 데 활용된다.
대역폭 75% 부족해도 학습 성공? Character.ai의 6비트 그래디언트 압축 기술 공개