대조적 디코딩
두 모델(예: 전문가 모델과 일반 모델)의 확률 분포 차이를 이용하여 더 고품질의 텍스트를 생성하는 기법이다. 특정 성향을 강화하거나 억제하는 데 효과적이다.
0.4% 크기의 헤드만으로 지시 이행 성능 극대화, rho-eval 공개