불균형 텍스트 분류를 위한 외삽 마르코프 체인 오버샘플링 기법

핵심 요약

실제 텍스트 분류 환경에서는 특정 클래스의 데이터가 부족한 불균형 문제가 빈번하게 발생하며 이는 모델의 성능 저하로 이어진다. 본 연구는 마르코프 체인(Markov Chain)을 기반으로 소수 클래스의 데이터를 합성하여 생성하는 새로운 오버샘플링 기법을 제안한다. 기존 방식과 달리 소수 클래스뿐만 아니라 다수 클래스의 전이 확률을 일부 활용하여 소수 클래스의 어휘 목록인 특징 공간(Feature Space)을 확장하는 외삽(Extrapolation) 방식을 채택했다. 실험 결과 특히 데이터 불균형이 심각한 상황에서 기존의 주요 오버샘플링 방식들보다 우수하거나 대등한 성능을 보였다.

배경

마르코프 체인(Markov Chain)에 대한 이해, 오버샘플링(Oversampling) 및 데이터 불균형 문제에 대한 기초 지식, 텍스트 분류(Text Classification) 메커니즘

대상 독자

NLP 연구자 및 데이터 불균형 문제를 해결해야 하는 머신러닝 엔지니어

의미 / 영향

텍스트 데이터 증강 기법에 통계적 마르코프 모델을 결합하여 단순 복제나 보간을 넘어선 새로운 데이터 생성 방향을 제시한다. 이는 특히 데이터가 극도로 부족한 도메인 특화 텍스트 분류 성능 향상에 기여할 수 있다.

섹션별 상세

텍스트 데이터의 불균형 문제는 일반적인 정형 데이터와 달리 샘플 크기가 커질수록 어휘 목록인 특징 공간이 함께 확장되는 고유한 특성을 가진다. 기존의 범용 오버샘플링 기법들은 이러한 텍스트 데이터의 동적인 특징 공간 변화를 충분히 반영하지 못하는 한계가 존재한다.

제안된 마르코프 체인 기반 기법은 소수 클래스의 전이 확률을 추정하되 다수 클래스의 정보도 일부 결합하여 새로운 텍스트 데이터를 생성한다. 이를 통해 소수 클래스에 존재하지 않았던 단어나 조합이 생성되는 외삽 효과를 얻어 소수 클래스의 특징 공간을 효과적으로 넓힌다.

다양한 실제 데이터셋을 활용한 벤치마크 테스트에서 본 기법은 기존의 주요 오버샘플링 알고리즘들과 비교해 경쟁력 있는 수치를 기록했다. 특히 클래스 간 불균형이 매우 극심한 데이터셋에서 분류 정확도와 재현율을 유의미하게 개선하는 성과를 거두었다.

실무 Takeaway

텍스트 데이터 증강 시 소수 클래스 내부 정보만 활용하기보다 다수 클래스의 구조적 정보를 결합하는 것이 특징 공간 확장에 유리하다.
데이터 불균형이 심각한 텍스트 분류 프로젝트에서 마르코프 체인 기반의 외삽 오버샘플링을 적용하여 소수 클래스 예측 성능을 개선할 수 있다.

언급된 리소스

논문Extrapolated Markov Chain Oversampling Method for Imbalanced Text Classification (JMLR)