로-서저리
모델의 특정 행동을 수정하거나 개선하기 위해 가중치를 미세하게 조정하거나 개입하는 기법이다. 전체 재학습 없이 특정 성능을 정밀하게 튜닝할 때 사용된다.
0.4% 크기의 헤드만으로 지시 이행 성능 극대화, rho-eval 공개