인간과 대형 언어 모델의 확률적 추론 차이 분석

왜 중요한가

일상적인 추론은 흑백 논리가 아닌 확률적 판단을 요구하지만, 최신 추론 모델들은 중간 정도의 확률을 판단하는 데 어려움을 겪는다. 이 연구는 LLM이 인간의 유연한 확률적 사고 방식을 모방하지 못하고 과도한 확신을 갖는 경향이 있음을 PROBCOPA 데이터셋을 통해 증명했다.

핵심 기여

PROBCOPA 데이터셋 구축

210개의 확률적 추론 문항으로 구성된 데이터셋을 구축하고, 각 문항에 대해 25~30명의 인간 응답자로부터 0~100 사이의 확률 판단 데이터를 수집했다.

인간과 LLM의 분포 불일치 확인

인간은 확률 분포가 삼봉형(tri-modal)을 띠며 중간 확률에 대해서도 유연하게 반응하는 반면, LLM은 양극단에 치우친 이봉형(bi-modal) 분포를 보이며 과잉 확신을 나타냈다.

추론 체인과 인간 불확실성의 상관관계 분석

인간이 더 큰 불확실성을 느끼는 문항일수록 LLM의 추론 체인(Reasoning Chain) 길이가 길어지는 양의 상관관계를 발견했다.

핵심 아이디어 이해하기

기존의 자연어 추론(NLI)은 주로 '참' 또는 '거짓'을 가리는 결정론적 문제에 집중했다. 하지만 현실 세계의 추론은 "고속도로에 사고가 났으니 차가 막힐 것이다"처럼 개연성은 높지만 반드시 그런 것은 아닌 확률적 성격을 띤다. LLM이 수학이나 논리 문제에서는 뛰어나지만, 이런 모호한 상황에서 인간처럼 유연하게 판단하는지는 미지의 영역이었다.

이 연구는 LLM에게 0부터 100까지의 수치로 확률을 직접 답하게 함으로써 모델 내부의 판단 분포를 분석했다. 인간은 "그럴 수도 있고 아닐 수도 있다"는 중간 지점(50점 근처)에 많은 응답을 남기지만, 모델은 Softmax 확률 분포의 특성상 특정 결과에 가중치를 두는 경향이 있어 중간 지점을 회피하고 0이나 100에 가까운 극단적인 답을 내놓는 원리를 확인했다.

결과적으로 LLM은 인간이 어렵게 느끼는 문제(높은 엔트로피)에서 더 긴 추론 과정을 거치지만, 그 결과물은 인간의 집단적 지혜가 보여주는 분포와는 거리가 멀다. 이는 모델이 단순히 논리적 단계를 밟는 것과 인간의 상식적 확률감을 갖는 것 사이의 간극을 보여준다.

방법론

COPA(Choice of Plausible Alternatives) 데이터셋에서 105개의 아이템을 추출하여 210개의 확률적 추론 문항으로 재구성했다. 각 문항은 전제(Premise)와 가설(Hypothesis) 쌍으로 이루어지며, 인간 참가자들은 슬라이딩 바를 이용해 0(절대 아님)에서 100(확실함) 사이의 수치를 부여했다.

LLM(Gemini-3, GPT-5, DeepSeek-R1 등)에게는 인간과 동일한 수치 척도 가이드를 제공하고, 각 문항에 대해 30회씩 반복 실행하여 확률 분포를 생성했다. 이때 모델이 최종 수치를 내놓기 전 추론 체인(Reasoning Chain)을 생성하도록 유도하여 사고 과정을 분석했다.

두 분포 사이의 유사성을 측정하기 위해 Wasserstein Distance를 사용했다. [인간 응답 분포 P와 모델 응답 분포 Q가 주어질 때] → [P를 Q로 옮기기 위한 최소 운송 비용을 계산하여] → [그 값이 작을수록 두 분포가 유사함을 의미하며] → [이를 통해 모델이 인간의 판단 경향을 얼마나 잘 모방하는지 수치화했다].

응답의 분산 정도를 측정하기 위해 Differential Entropy를 계산했다. [연속 확률 밀도 함수 f(x)에 대해 -∫ f(x) log f(x) dx를 연산하여] → [분포가 얼마나 넓게 퍼져 있는지 확인하고] → [이 값이 높을수록 응답자들 사이의 의견 불일치나 불확실성이 큼을 나타낸다].

주요 결과

인간의 확률 판단은 매우 낮음, 매우 높음, 그리고 중간(50점 근처)의 세 지점에서 정점을 이루는 삼봉형(tri-modal) 분포를 보였다. 반면, 테스트된 모든 LLM은 중간 확률 응답을 거의 내놓지 않는 이봉형(bi-modal) 분포를 나타냈으며, 특히 인간이 50% 확률로 판단하는 모호한 상황에서도 모델은 0이나 100에 가까운 확신을 보였다.

모델과 인간의 분포 차이는 인간들 사이의 의견 일치도가 낮은(중간 확률 영역) 문항에서 가장 크게 벌어졌다. Wasserstein Distance 분석 결과, 인간-인간 사이의 분포 차이보다 모델-인간 사이의 차이가 모든 모델에서 유의미하게 높게 나타났다.

추론 체인의 길이는 인간의 불확실성(Differential Entropy)과 양의 상관관계(Spearman's ρ ≈ 0.30~0.50)를 보였다. 즉, 인간이 판단하기 어려워하는 문제일수록 모델도 더 긴 사고 과정을 거쳤으나, 이것이 인간과 유사한 확률 판단으로 이어지지는 않았다.

실무 활용

LLM을 사용자 피드백 분석이나 위험 평가 등 확률적 판단이 필요한 실무에 적용할 때, 모델의 과잉 확신(Overconfidence)을 경계해야 함을 시사한다.

AI 기반 법률/의료 위험도 예측 시스템의 편향 교정
인간의 상식적 판단과 일치하는 챗봇 응답 분포 설계
LLM의 추론 길이를 활용한 문제 난이도 자동 측정 도구

기술 상세

연구는 최신 추론 모델인 Gemini-3, GPT-5, Claude Sonnet-4.5, DeepSeek-R1 등을 포함하여 총 8종의 모델을 벤치마킹했다. 각 모델은 'thinking budget' 또는 'reasoning effort' 파라미터를 조정하여 추론 강도에 따른 변화를 관찰했다.

추론 체인 분석 결과, 모델의 90%가 최종 수치를 내놓기 전 명시적으로 대안적인 시나리오(Alternative Scenarios)를 고려하는 패턴을 보였다. 예를 들어 "타이어가 펑크 났다"는 전제에 대해 "수리점에 갈 수도 있지만, 그냥 방치할 수도 있다"는 식의 사고 과정을 거친다.

온도(Temperature) 조절이나 페르소나 프롬프팅(Persona Prompting)을 통해 응답의 다양성을 높이려 시도했으나, 인간 수준의 유연한 확률 분포를 재현하는 데는 실패했다. 온도를 높일 경우 분포는 넓어지지만 논리적 일관성이 깨지는 트레이드오프가 발생했다.

한계점

영어 데이터셋에 한정되어 있으며, 모델이 내놓는 수치적 확률 판단이 모델 내부의 실제 확률 상태를 얼마나 충실히 반영하는지에 대한 근본적인 의문이 남아 있다. 또한 COPA 데이터셋이 모델의 학습 데이터에 포함되었을 가능성을 배제할 수 없다.

키워드

Probabilistic Reasoning(확률적 추론)Reasoning LLM(추론형 대형 언어 모델)PROBCOPA(확률적 COPA 데이터셋)Overconfidence(과잉 확신)Reasoning Chain(추론 체인)