적대적 과업
모델의 취약점을 파고들거나 복잡한 논리적 함정이 포함된 고난도 테스트 케이스이다. 일반적인 작업에서는 모델 간 성능 차이가 적을 수 있으나, 이러한 극한 상황에서의 대응 능력을 통해 최상위 모델(Opus 등)의 진정한 추론 능력을 검증한다.