핵심 요약
LLM은 때때로 매우 그럴듯하지만 틀린 답변을 생성하며, 기존의 자기 일관성 측정 방식으로는 이러한 과잉 확신 오류를 잡아내기 어렵다. MIT 연구진은 단일 모델의 내부 확신도와 여러 모델 간의 의견 불일치를 결합한 '전체 불확실성(Total Uncertainty)' 지표를 새롭게 제안했다. 이 방법은 타겟 모델의 응답을 다른 기업의 유사한 모델들과 비교함으로써 모델 고유의 편향이나 지식 부족을 효과적으로 드러낸다. 실험 결과, 이 지표는 수학적 추론과 질의응답 등 10가지 과제에서 기존 방식보다 뛰어난 신뢰성 감지 성능을 보였다.
배경
LLM의 기본 작동 원리, 확률 및 통계 기초, Hallucination 개념 이해
대상 독자
LLM 신뢰성 및 안전성 연구자 및 개발자
의미 / 영향
이 연구는 단일 모델의 한계를 넘어선 다중 모델 검증 체계를 제안함으로써 LLM의 고질적인 문제인 환각 현상을 보다 정밀하게 제어할 수 있는 길을 열었다. 특히 의료나 금융과 같이 오답의 대가가 큰 분야에서 AI 도입의 신뢰성을 높이는 데 기여할 것으로 보인다.
섹션별 상세
기존의 불확실성 측정 방식은 주로 모델의 '우연적 불확실성(Aleatoric Uncertainty)'을 측정하는 자기 일관성 기법에 의존한다. 이는 동일한 질문을 반복했을 때 모델이 얼마나 일정한 답을 내놓는지를 확인하는 방식이지만, 모델이 틀린 정보를 사실로 굳게 믿고 있을 때는 무용지물이다. 연구진은 이러한 '확신에 찬 오답'이 의료나 금융 같은 고위험 분야에서 치명적인 결과를 초래할 수 있다고 경고한다.

연구진은 모델의 구조적 한계를 파악하기 위해 '인식적 불확실성(Epistemic Uncertainty)'을 측정하는 새로운 접근법을 도입했다. 이는 타겟 모델의 답변을 서로 다른 데이터로 학습된 타사 모델(예: ChatGPT, Claude, Gemini)의 답변과 비교하여 의미론적 유사성을 측정하는 방식이다. 서로 다른 배경을 가진 모델들이 특정 질문에 대해 서로 다른 답을 내놓는다면, 이는 해당 질문에 대한 불확실성이 높음을 의미한다.
제안된 '전체 불확실성(Total Uncertainty, TU)' 지표는 우연적 불확실성과 인식적 불확실성을 합산하여 산출된다. 연구진은 질문 답변, 요약, 번역, 수학적 추론 등 10가지 실제 과제에서 TU 지표를 테스트했으며, 모든 항목에서 단일 지표보다 우수한 성능을 확인했다. 특히 TU는 모델이 환각 현상을 일으키는 상황을 훨씬 더 민감하게 포착하여 사용자에게 경고를 보낼 수 있다.
실험 과정에서 연구진은 복잡한 앙상블 기법보다 서로 다른 회사에서 개발한 모델들을 비교하는 단순한 방식이 가장 효과적임을 발견했다. 이는 각 개발사마다 학습 데이터와 최적화 방식이 다르기 때문에, 특정 모델이 가진 고유한 편향을 상쇄하는 데 유리하기 때문이다. 또한 이 방식은 기존의 반복 쿼리 방식보다 적은 횟수의 질문으로도 높은 정확도의 불확실성 측정이 가능해 계산 효율성 면에서도 이점을 가진다.
실무 Takeaway
- LLM 기반 시스템 구축 시 단일 모델의 확신도 점수만 신뢰하지 말고, 타사 모델과의 교차 검증을 통해 인식적 불확실성을 반드시 체크해야 한다.
- 사실 관계 확인이 중요한 태스크에서는 답변의 의미론적 유사성을 측정하는 앙상블 접근법을 적용하여 환각 현상을 사전에 차단해야 한다.
AI 분석 전체 내용 보기
AI 요약 · 북마크 · 개인 피드 설정 — 무료