본문으로 건너뛰기

compliance-us-hard

컴플라이언스 US 하드

고급

SpeechMap 벤치마크에서 사용하는 고난도 평가 데이터셋으로, 미국 기준에서 법적·윤리적으로 민감한 질문들에 대해 모델이 얼마나 규정을 준수하면서도 답변을 완수하는지 테스트한다.