핵심 요약
이상치 탐지는 데이터 전처리의 필수 단계이나, 교과서적인 방법론이 실제 데이터에서는 일관성 없는 결과를 낼 때가 많다. 본 아티클은 6,497개의 포르투갈 와인 데이터셋을 대상으로 Z-Score, IQR, Isolation Forest 등 5가지 기법을 비교 실험했다. 실험 결과, 최소 한 가지 기법에 의해 이상치로 분류된 816개 샘플 중 모든 기법이 동의한 샘플은 단 32개(4%)에 불과했다. 이는 각 기법이 정의하는 '이상함'의 기준이 다르기 때문이며, 실무에서는 단일 기법에 의존하기보다 여러 기법의 합의를 활용하는 것이 중요함을 시사한다.
배경
기초 통계학(평균, 중앙값, 표준편차), Python 데이터 분석 라이브러리(NumPy, Pandas, Scikit-learn) 사용법
대상 독자
데이터 전처리 및 이상치 탐지 로직을 설계하는 데이터 과학자 및 ML 엔지니어
의미 / 영향
이상치 탐지가 단순히 수학적 임계값을 넘는 데이터를 제거하는 과정이 아니라, 비즈니스 맥락과 알고리즘의 특성을 결합해야 하는 의사결정 과정임을 보여준다. 특히 기법 간 불일치가 크다는 점은 데이터 분석의 불확실성을 관리하기 위해 앙상블이나 합의 기반 접근이 필수적임을 시사한다.
섹션별 상세
다중 테스트(Multiple Testing)로 인해 이상치 결과가 비정상적으로 팽창하는 현상이 확인됐다. 11개의 피처를 독립적으로 테스트하면 통계적으로 전체 샘플의 약 43%가 최소 하나의 극단값을 가질 수 있어 오탐지율이 높아진다. 이를 방지하기 위해 최소 2개 이상의 피처에서 동시에 극단적 수치를 보이는 경우만 이상치로 판정하는 조건을 적용하여 결과의 타당성을 확보했다.
통계적 기법과 머신러닝 기법은 이상치를 정의하는 논리 구조에서 근본적인 차이를 보였다. Z-Score와 IQR은 개별 변수의 분포를 기준으로 극단값을 찾지만, Isolation Forest와 LOF는 다차원 공간에서의 고립도나 밀도를 기준으로 이상치를 식별했다. 특히 머신러닝 기법의 'contamination' 파라미터는 실제 데이터의 상태와 무관하게 정해진 비율만큼의 이상치를 강제로 추출하는 할당제 방식으로 작동함이 확인됐다.
5가지 기법 간의 결과 일치도를 분석한 결과, 자카드 유사도(Jaccard Similarity)가 0.10에서 0.30 수준으로 매우 낮게 나타났다. 이는 각 알고리즘이 포착하는 '이상함'의 성격이 다르기 때문이며, 특정 변수의 수치가 높은 '단변량 이상치'와 여러 변수의 조합이 특이한 '다변량 이상치'가 서로 다른 기법에 의해 포착됐다.
데이터의 왜도(Skewness)가 높은 실제 데이터셋에서는 정규 분포를 가정하는 표준 Z-Score나 Elliptic Envelope가 부적절한 결과를 산출했다. 이를 해결하기 위해 이상치에 강건한 중앙값 기반의 Robust Z-Score를 도입하고, 특성이 다른 레드 와인과 화이트 와인을 분리하여 개별적으로 스케일링한 후 결합하는 전처리 과정을 거쳤다.
이상치와 실제 데이터 품질(와인 등급) 간의 상관관계를 분석한 결과, 극단적인 품질 등급을 받은 와인일수록 여러 기법에서 공통적으로 이상치로 지목될 확률이 2배 높게 나타났다. 이는 알고리즘에 의한 이상치 탐지가 실제 도메인의 특이 케이스를 반영하고 있음을 입증하는 지표로 활용됐다.
실무 Takeaway
- 데이터의 왜도가 높고 이상치가 포함된 경우, 평균 대신 중앙값과 MAD를 사용하는 Robust Z-Score를 적용하여 통계적 왜곡을 최소화해야 한다.
- 단일 알고리즘의 판단에 의존하기보다 최소 3개 이상의 기법이 공통적으로 지목한 '합의(Consensus)' 샘플을 최종 이상치로 선정하여 분석의 신뢰도를 높여야 한다.
- 머신러닝 기반 이상치 탐지 모델을 사용할 때는 'contamination' 설정값이 실제 이상치 비율을 반영하는 할당량으로 작용한다는 점을 고려하여 도메인 지식을 바탕으로 신중히 결정해야 한다.
AI 분석 전체 내용 보기
AI 요약 · 북마크 · 개인 피드 설정 — 무료