Pass^k
k번의 모든 시도가 성공해야만 합격으로 간주하는 엄격한 지표입니다. 에이전트의 신뢰성과 일관성을 측정하며, k가 증가할수록 점수가 급격히 하락하여 시스템의 취약점을 드러냅니다.