모델 사양 평가
모델의 실제 출력이 정의된 Model Spec 지침과 얼마나 일치하는지 측정하는 시나리오 기반 테스트 세트이다. 이를 통해 모델의 정렬 상태를 추적하고 정책과 실제 행동 사이의 간극을 식별하여 개선에 활용한다.