나이브 베이즈 분류기에서 확률의 합이 1이 넘는 이유에 대한 의문

핵심 요약

나이브 베이즈 분류기 계산에서 사후 확률의 합이 1을 초과하는 현상의 수학적 원인과 정규화 과정의 필요성을 분석한다.

배경

나이브 베이즈 튜토리얼 시청 중 특정 조건에서의 확률 합이 1을 초과하여 정규화하는 과정을 발견하고 수학적 타당성에 의문을 제기했다.

의미 / 영향

나이브 베이즈의 수학적 원리를 이해할 때 베이즈 정리의 각 항이 갖는 의미를 정확히 파악하는 것이 중요하다. 실무적으로는 단순 확률 곱셈보다 로그 합산 방식을 선호한다는 점을 인지해야 한다.

커뮤니티 반응

사용자의 의문이 수학적으로 타당함을 인정하면서도 나이브 베이즈의 특성상 분모를 생략하는 것이 일반적임을 설명하는 반응이다.

주요 논점

01중립다수

튜토리얼의 계산 방식은 수학적으로 틀린 것이 아니라 생략된 단계를 나중에 보충하는 방식이다.

합의점 vs 논쟁점

합의점

나이브 베이즈에서 분모 P(X)는 모든 클래스에 공통적이므로 생략 가능하다
최종 확률을 구하려면 정규화 과정이 필요하다

실용적 조언

나이브 베이즈 구현 시 수치적 안정성을 위해 확률의 곱셈 대신 로그 확률의 합산 방식을 사용하는 것이 권장된다.

전문가 의견

베이즈 정리에서 증거 항인 P(X)는 정규화 상수의 역할을 수행하며 분류 문제에서는 클래스 간 상대적 비교가 핵심이므로 이를 생략해도 최적의 클래스 선택 결과는 변하지 않는다.

섹션별 상세

나이브 베이즈는 모든 특성이 서로 독립적이라는 강한 가정을 바탕으로 사후 확률을 계산한다. 이 과정에서 각 클래스에 대한 점수는 사전 확률과 우도의 곱으로 산출되는데 이는 베이즈 정리의 분자 부분에 해당한다. 분모인 증거(Evidence)를 제외하고 계산하기 때문에 결과값의 합이 1을 초과하거나 미달하는 현상이 발생한다. 이는 수학적 오류가 아니라 비교를 위한 상대적 수치를 구하는 과정에서 발생하는 자연스러운 결과이다.

튜토리얼에서 합이 1이 넘는 수치를 정규화하는 이유는 상대적인 점수를 확률 분포로 다시 매핑하기 위함이다. 모든 클래스에 대해 동일한 분모를 나누는 과정은 결국 각 점수를 전체 점수의 합으로 나누는 것과 수학적으로 동일한 효과를 가진다. 이를 통해 최종적으로 각 클래스에 속할 확률의 합을 1로 맞추어 해석 가능한 형태로 만든다. 많은 머신러닝 라이브러리에서도 내부적으로 이러한 정규화 방식을 채택하여 최종 예측 확률을 제공한다.

분류 작업의 주된 목적은 가장 확률이 높은 클래스를 선택하는 것이므로 모든 클래스에 공통으로 적용되는 분모를 굳이 계산할 필요가 없다. 분모를 계산하려면 모든 가능한 특성 조합에 대한 확률을 구해야 하므로 연산 비용이 불필요하게 증가한다. 따라서 실무에서는 분자만 계산하여 크기를 비교하고 필요할 때만 정규화를 수행하는 것이 표준적인 접근법이다. 이러한 방식은 모델의 예측 결과에는 영향을 주지 않으면서 연산 속도를 높이는 데 기여한다.

실무 Takeaway

나이브 베이즈에서 계산된 원시 점수의 합이 1이 아닌 것은 베이즈 정리의 분모를 생략했기 때문이다.
정규화는 이러한 상대적 점수를 확률적 의미를 갖는 0에서 1 사이의 값으로 변환하는 표준 절차이다.
분류 결정 자체에는 분모가 영향을 주지 않으므로 계산 효율성을 위해 생략하는 것이 일반적이다.

언급된 리소스

튜토리얼Naive Bayes Classifier Tutorial