ExploitBench
취약점 발굴과 익스플로잇 생성 능력을 토큰 사용량 관점에서 평가하는 벤치마크로서, 출력 토큰 수와 성공 지표(cap percent)를 함께 시각화한다. 동일 작업에서 더 적은 출력 토큰으로 높은 성능을 내는 모델의 효율성을 측정할 수 있어 안전성·위험평가에 활용된다. 본문에서는 이 벤치마크로 GPT-5.6 Sol과 Mythos Preview의 토큰 대비 성능을 비교했다.