컴플라이언스 US 하드
SpeechMap 벤치마크에서 사용하는 고난도 평가 데이터셋으로, 미국 기준에서 법적·윤리적으로 민감한 질문들에 대해 모델이 얼마나 규정을 준수하면서도 답변을 완수하는지 테스트한다.