지시사항 이행 평가
모델이 사용자의 복잡한 제약 조건이나 지시사항을 얼마나 정확하게 따르는지 평가하는 벤치마크이다. 인스트럭트 모델의 실질적인 활용 능력을 측정하는 데 중요하다.
0.4% 크기의 헤드만으로 지시 이행 성능 극대화, rho-eval 공개