핵심 요약
기존의 AI 모델은 자신이 잘 모르는 것(학습 부족)과 데이터 자체가 모호한 것(해석의 다양성)을 구분하지 못해 일괄적인 신뢰도 점수만 제공했다. 이 논문은 두 종류의 불확실성을 분리하여 측정함으로써, 데이터를 더 수집해야 할 상황과 사람이 직접 검토해야 할 상황을 명확히 구분해 AI 시스템의 의사결정 신뢰도를 높인다.
왜 중요한가
기존의 AI 모델은 자신이 잘 모르는 것(학습 부족)과 데이터 자체가 모호한 것(해석의 다양성)을 구분하지 못해 일괄적인 신뢰도 점수만 제공했다. 이 논문은 두 종류의 불확실성을 분리하여 측정함으로써, 데이터를 더 수집해야 할 상황과 사람이 직접 검토해야 할 상황을 명확히 구분해 AI 시스템의 의사결정 신뢰도를 높인다.
핵심 기여
CREDENCE 프레임워크 제안
컨셉 보틀넥 모델(CBM) 내에서 에피스테믹(Epistemic) 불확실성과 알레아토릭(Aleatoric) 불확실성을 구조적으로 분리하여 측정하는 CREDENCE 프레임워크를 구축했다.
크레달 세트를 이용한 컨셉 표현
각 컨셉을 단일 확률값이 아닌 확률 구간(Probability Interval)으로 표현하는 크레달 예측 방식을 도입하여 불확실성의 범위를 명시적으로 나타냈다.
불확실성 유형별 맞춤형 대응 전략 수립
에피스테믹 불확실성이 높으면 데이터 수집을, 알레아토릭 불확실성이 높으면 인간 검토를 권장하는 사후 조치 가이드를 제공하여 모델의 실무 활용성을 증명했다.
핵심 아이디어 이해하기
딥러닝 모델의 출력값은 보통 단일 확률값(Softmax 결과 등)으로 표현되는데, 이는 모델이 해당 데이터를 처음 봐서 헷갈리는 것인지 아니면 데이터 자체가 원래 여러 의미로 해석될 수 있는 것인지 구분하지 못한다는 한계가 있다. 예를 들어 식당 리뷰에서 '음식은 괜찮은데 서비스가 좀...'이라는 문장은 모델이 학습을 덜 해서 판단을 못 할 수도 있고, 문장 자체가 중의적이라 사람마다 의견이 갈릴 수도 있다.
CREDENCE는 이를 해결하기 위해 '컨셉(Concept)'이라는 중간 단계를 활용한다. 모델 내부에 여러 개의 독립적인 '컨셉 헤드'를 두고, 이들이 서로 다른 의견을 내면 모델의 지식 부족(에피스테믹)으로 간주한다. 반면, 데이터의 모호함(알레아토릭)을 전문적으로 예측하는 별도의 경로를 두어 데이터 자체의 노이즈를 측정한다.
결과적으로 AI는 '내가 이 개념을 잘 몰라서 확신이 없다'는 신호와 '이 문장은 원래 애매해서 판단하기 어렵다'는 신호를 따로 보낼 수 있게 된다. 이는 단순히 '신뢰도가 낮다'고 말하는 것보다 훨씬 구체적인 정보를 사용자에게 전달하며, 후속 조치를 결정하는 데 결정적인 근거가 된다.
방법론
CREDENCE는 4단계 파이프라인으로 구성된다. 첫째, 입력 텍스트를 고정된 Encoder를 통해 벡터 h로 변환한다. 둘째, 서로 다른 LoRA rank를 가진 H개의 앙상블 컨셉 헤드가 각각 컨셉 확률을 예측한다. 셋째, 이 예측값들의 최소값과 최대값을 취해 크레달 구간 [p_k, p_k]을 형성한다. 넷째, 이 구간 정보를 선형 분류기에 통과시켜 최종 라벨을 예측한다.
에피스테믹 불확실성 U_epi는 앙상블 헤드 간의 분산(Variance)으로 계산한다. [H개의 헤드 출력값 → 분산 연산 → 단일 수치] 순으로 계산하며, 이 값이 클수록 모델들 사이의 의견 불일치가 심해 모델의 지식이 부족함을 의미한다.
알레아토릭 불확실성 U_ale는 별도의 전용 헤드(Aleatoric Head)가 예측한다. [입력 벡터 h → 학습된 가중치 연산 → 시그모이드 출력] 과정을 거치며, 이 값은 데이터셋 내의 주석자 간 불일치(Annotator Disagreement) 정도를 학습하여 데이터 자체의 모호성을 수치화한다.
관련 Figure

입력 데이터가 고정된 인코더를 거쳐 두 갈래로 나뉘는 구조를 보여준다. 상단 경로는 앙상블 헤드를 통해 에피스테믹 불확실성을, 하단 경로는 전용 헤드를 통해 알레아토릭 불확실성을 독립적으로 추출하여 최종 분류기에 전달함을 시각화한다.
CREDENCE 모델의 전체 아키텍처와 불확실성 분해 과정을 보여주는 다이어그램이다.
주요 결과
CEBaB, GoEmotions, HateXplain 등 여러 NLP 벤치마크에서 실험한 결과, CREDENCE는 기존 모델 대비 알레아토릭 불확실성 측정 성능(rho_ale)에서 최대 2.1배(0.356에서 0.785로 상승) 향상된 수치를 기록했다. 이는 모델이 실제 인간 주석자들이 헷갈려 했던 지점을 정확히 짚어내고 있음을 보여준다.
에피스테믹 불확실성은 모델의 예측 오류와 강한 상관관계(rho_epi)를 보였다. 즉, 모델이 틀릴 것 같은 샘플에서는 에피스테믹 수치가 높게 나타나 신뢰할 수 없는 예측을 사전에 식별하는 지표로 활용 가능함을 입증했다.
사후 조치 실험에서 알레아토릭 불확실성이 높은 컨셉을 우선적으로 수정했을 때, 무작위 수정 대비 평균 4.4배 높은 정확도 향상 효과를 거두었다. 이는 불확실성의 종류를 구분하는 것이 실제 시스템 성능 개선에 직결됨을 의미한다.
기술 상세
CREDENCE 아키텍처의 핵심은 구조적 분리(Structural Separation)이다. 에피스테믹 신호는 앙상블 헤드의 불일치에서 유도되고, 알레아토릭 신호는 주석자 분산을 지도 학습한 별도 파라미터에서 유도된다. 이를 통해 두 신호가 하나로 뭉쳐지는 현상을 방지한다.
앙상블의 다양성을 확보하기 위해 각 헤드에 서로 다른 LoRA rank(4, 8, 16, 32, 64)를 적용했다. 낮은 rank의 헤드는 일반적인 패턴을, 높은 rank의 헤드는 세부적인 특징을 학습하도록 유도하여 모델 간의 건강한 의견 차이를 발생시킨다.
최종 분류 단계에서는 구간 산술(Interval Arithmetic)을 사용하여 컨셉 층의 확률 구간을 로짓(Logit) 구간으로 전파한다. 선형 분류기의 가중치 W의 부호에 따라 컨셉의 최소/최대값을 선택적으로 조합하여 최종 예측의 상한과 하한을 엄밀하게 계산한다.
한계점
이 방법론은 컨셉 수준의 주석(Concept-level annotations)이 있는 데이터셋에 의존하므로, 이러한 데이터가 없는 도메인에서는 적용이 제한적이다. 또한 앙상블 추론을 위해 H번의 추가 연산이 필요하므로 계산 비용이 증가하는 단점이 있다.
실무 활용
고위험 의사결정이 필요한 의료, 법률, 금융 분야의 NLP 시스템에서 AI의 판단 근거를 검토하고 신뢰도를 관리하는 데 즉시 적용 가능하다.
- 데이터 수집 우선순위 결정: 에피스테믹 불확실성이 높은 샘플을 선별하여 능동 학습(Active Learning) 데이터로 활용
- 자동화 및 인간 개입 분리: 불확실성이 낮은 케이스는 자동 승인하고, 알레아토릭 불확실성이 높은 케이스만 상담원에게 배정
- 모델 진단: 특정 컨셉에서 지속적으로 불확실성이 높게 나타날 경우 해당 도메인의 학습 데이터 부족을 파악
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.