본문으로 건너뛰기

test-time-extrapolation

테스트 시점 외삽

고급

모델의 추가 학습 없이 추론(Inference) 단계에서 특정 방향으로 확률 분포를 확장하는 기법이다. 본 논문에서는 강화학습으로 학습된 변화 방향을 더 강하게 반영하여 정답을 맞힐 확률이 높은 토큰의 선택 가능성을 높인다.