pass-at-k
모델이 생성한 k개의 결과물 중 최소 하나가 테스트를 통과할 확률을 나타내는 지표이다. 코딩 모델 평가 시 생성 결과의 다양성과 정확도를 동시에 고려하기 위해 널리 사용된다.
오픈소스의 반란? Qwen3-Coder-Next가 코딩 벤치마크 전 세계 1위 기록
에이전트가 나빠졌다는 느낌을 수치로 바꾸는 Anthropic의 평가 전략