TL;DR
작성자는 contamination이 배제된 랜덤 다단계 산술 문제에서 모델이 반환한 0–100 confidence와 정답 여부의 관계를 AUROC로 측정하여 모델별로 confidence의 판별력을 비교했다. 결과는 qwen2.5:7b와 qwen3-coder:30b 같은 소형·중간 모델이 AUROC 약 0.5 수준으로 confidence가 정답을 구분하지 못했고 평균적 과신이 심했으며 반면 glm-5.2와 claude-sonnet-4-6 같은 frontier 모델은 더 높은 AUROC와 근사적 보정성을 보여 실제 오류를 예측할 수 있는 경향을 보였다. 다만 glm-5.2는 전체 항목의 약 34%에 대해 usable confidence를 내지 않아 부분집합으로 평가된 점과 실험이 산술 과제에 국한된 점이 한계로 남는다. 작성자는 실무적으로 소형 모델의 자체 confidence를 단일 게이트로 쓰지 말고 독립적 corroboration이나 상위 모델로의 에스컬레이션을 권장하며 재현 가능한 코드와 데이터를 공개했다.
실용적 조언
- 작동 원칙 측면에서 모델의 자체 confidence를 곧바로 정책 게이트로 사용하는 것은 AUROC가 0.5에 가까운 모델에서는 위험하므로 피해야 한다. 독립적 검색결과나 별도 검증기, 또는 다수 모델의 응답 일치 여부를 기준으로 corroboration을 적용하면 단일 모델의 과신으로 인한 잘못된 결정을 줄일 수 있다. 불명확한 사례는 더 큰 모델이나 신뢰성 검증에 특화된 파이프라인으로 에스컬레이션하는 것이 실무적인 보완책이다.
섹션별 상세
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.