어블레이션 테스트 세트
모델의 특정 구성 요소나 기능을 의도적으로 제거하며 성능 변화를 측정하는 실험 모음이다. 시스템 프롬프트 변경이 모델 성능에 미치는 미세한 영향을 감지하는 데 사용되었다.