오딧벤치
Anthropic에서 개발한 모델 행동 감사용 벤치마크로, 모델 내부에 특정 행동을 주입한 뒤 이를 탐지할 수 있는지 평가하는 도구이다. 모델의 안전성과 신뢰성을 검증하는 데 사용된다.