LLM의 자체 confidence가 정답을 예측하는가: AUROC 기반 산술 프로브 결과

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

작성자는 contamination이 배제된 랜덤 다단계 산술 문제에서 모델이 반환한 0–100 confidence와 정답 여부의 관계를 AUROC로 측정하여 모델별로 confidence의 판별력을 비교했다. 결과는 qwen2.5:7b와 qwen3-coder:30b 같은 소형·중간 모델이 AUROC 약 0.5 수준으로 confidence가 정답을 구분하지 못했고 평균적 과신이 심했으며 반면 glm-5.2와 claude-sonnet-4-6 같은 frontier 모델은 더 높은 AUROC와 근사적 보정성을 보여 실제 오류를 예측할 수 있는 경향을 보였다. 다만 glm-5.2는 전체 항목의 약 34%에 대해 usable confidence를 내지 않아 부분집합으로 평가된 점과 실험이 산술 과제에 국한된 점이 한계로 남는다. 작성자는 실무적으로 소형 모델의 자체 confidence를 단일 게이트로 쓰지 말고 독립적 corroboration이나 상위 모델로의 에스컬레이션을 권장하며 재현 가능한 코드와 데이터를 공개했다.

실용적 조언

작동 원칙 측면에서 모델의 자체 confidence를 곧바로 정책 게이트로 사용하는 것은 AUROC가 0.5에 가까운 모델에서는 위험하므로 피해야 한다. 독립적 검색결과나 별도 검증기, 또는 다수 모델의 응답 일치 여부를 기준으로 corroboration을 적용하면 단일 모델의 과신으로 인한 잘못된 결정을 줄일 수 있다. 불명확한 사례는 더 큰 모델이나 신뢰성 검증에 특화된 파이프라인으로 에스컬레이션하는 것이 실무적인 보완책이다.

섹션별 상세

연구 목적과 실험 설계는 모델의 자체 confidence가 실제 정답 여부를 얼마나 구분하는지 평가하는 것이었다. 입력으로 contamination이 없는 랜덤 정수 기반의 다단계 산술 문제가 주어지고 각 모델은 정답과 0–100 범위의 confidence를 반환했으며 평가는 confidence와 correctness 사이의 AUROC로 수행됐다. AUROC는 0.5가 무작위 판별과 같고 1.0은 완벽한 분리임을 전제로 abstention 정책의 유효성을 직접적으로 측정하는 지표로 채택됐다. 이 설정은 memorization 위험을 배제하고 정답 판정이 명확한 과제에서 confidence의 판별력을 정량화하도록 구성됐다.

실험 결과는 모델 계층에 따라 뚜렷한 차이를 보였다. 소형·중간급 모델(qwen2.5:7b, qwen3-coder:30b)은 AUROC가 각각 0.50과 0.54로 confidence가 정답 여부를 거의 구분하지 못했고 거의 모든 답안에 높은 confidence를 부여함으로써 과신(overconfidence)이 관찰되었다. 반면 frontier 계열의 glm-5.2는 서브셋에서 AUROC 0.73을 보였고 cloude-sonnet-4-6는 AUROC 0.90으로 매우 높은 분리 능력을 나타냈으나 glm-5.2는 약 34% 항목에서 사용 가능한 confidence를 내지 않아 계산이 부분집합에 한정되었다. 표에 제시된 overconfidence(평균 confidence − 정확도) 값들은 소형 모델이 실효성이 없는 confidence를 얼마나 자주 보이는지를 수치로 보여줬다.

에이전트 설계 관점에서 이 결과는 직접적인 설계 지침을 제공한다. 모델 자체 confidence로 답변 수용 여부를 게이트로 쓰면 소형 모델은 틀린 답안에도 높은 확신을 부여하므로 잘못된 행동을 취할 위험이 크며, 따라서 단일 모델의 confidence를 신뢰하는 정책은 소규모 모델 기반 에이전트에 부적절하다. 작성자는 독립적 검증 또는 복수 소스의 상호검증(corroboration)을 먼저 적용하고 불명확한 사례를 더 강력한 모델로 에스컬레이션하는 것이 실무에서 효과적이라고 보고했다. 이 방식은 confidence의 판별력이 낮은 모델이 잘못된 결정을 내리는 빈도를 줄이는 실용적 대안으로 연결된다.

결과의 한계와 재현 가능성에 대한 고지는 명확했다. 실험은 하나의 작업군인 산술 문제에 한정되며 모델 표본도 제한적이어서 결과는 방향성을 제시하는 수준이지 보편적 스케일링 법칙을 증명하지 않는다. 실험 코드는 단일 파일로 재실행 가능하고 항목별 원자료(raw per-item data)가 공개되어 있어 동일 실험을 사용자가 자신의 모델에서 재현할 수 있다. 작성자는 MIT 라이선스의 오픈소스 프로젝트 링크와 보다 상세한 글을 함께 제공하여 결과 검증과 확장을 가능하게 했다.

언급된 리소스

GitHubRunnable probe 코드 및 raw 데이터 (GitHub)

문서Full writeup: Can an LLM trust its own confidence

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

실용적 조언

작동 원칙 측면에서 모델의 자체 confidence를 곧바로 정책 게이트로 사용하는 것은 AUROC가 0.5에 가까운 모델에서는 위험하므로 피해야 한다. 독립적 검색결과나 별도 검증기, 또는 다수 모델의 응답 일치 여부를 기준으로 corroboration을 적용하면 단일 모델의 과신으로 인한 잘못된 결정을 줄일 수 있다. 불명확한 사례는 더 큰 모델이나 신뢰성 검증에 특화된 파이프라인으로 에스컬레이션하는 것이 실무적인 보완책이다.

섹션별 상세

언급된 리소스

GitHubRunnable probe 코드 및 raw 데이터 (GitHub)

문서Full writeup: Can an LLM trust its own confidence

LLM의 자체 confidence가 정답을 예측하는가: AUROC 기반 산술 프로브 결과

TL;DR

실용적 조언

섹션별 상세

언급된 리소스

LLM의 자체 confidence가 정답을 예측하는가: AUROC 기반 산술 프로브 결과

TL;DR

실용적 조언

섹션별 상세

언급된 리소스

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드