메타 정렬
모델이 단순히 지시를 따르는 것을 넘어, 안전성이나 윤리적 가이드라인 등 상위 수준의 원칙을 얼마나 잘 준수하는지 평가하고 조정하는 과정이다. 정답이 비교적 명확한 경우가 많아 평가 시스템의 기초 성능 측정에 활용된다.
판사가 모델보다 더 튄다? LLM 평가의 캘리브레이션 함정