검증 격차
모델이 정답을 생성할 수 있음에도 불구하고 여러 후보 중 무엇이 정답인지 판별하지 못해 발생하는 성능 저하이다. Success@K 점수는 높지만 Success@1 점수가 낮은 현상을 설명하며, 강력한 검증기(Validator)를 통해 이 간극을 메우는 것이 시스템 성능의 핵심이다.