전통적인 머신러닝(SVM)을 활용한 LLM 생성 텍스트 탐지기 구축기

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

최근 범람하는 저품질 AI 생성 콘텐츠를 식별하기 위해 고전적인 머신러닝 기법인 SVM(Support Vector Machine)을 활용한 탐지기를 개발했다. Perplexity 기반의 복잡한 방식 대신, TF-IDF와 LinearSVC를 조합하여 문장 단위에서 약 85%의 높은 분류 정확도를 달성했다. 7개의 서로 다른 LLM으로 생성한 데이터를 학습시켜 다수결 투표 방식을 적용함으로써 탐지 성능의 견고함을 확보했다. 또한 서버리스 환경을 위해 JavaScript 기반의 브라우저 추론 데모를 구현하여 실용성을 높였다.

배경

Scikit-learn 기초 지식, TF-IDF 및 SVM 작동 원리 이해, 기본적인 JavaScript 및 Python 프로그래밍

대상 독자

AI 생성 콘텐츠 식별 및 텍스트 분류 모델 구현에 관심 있는 개발자

의미 / 영향

고가의 딥러닝 모델 없이도 효과적인 AIGC 탐지가 가능함을 보여주며, 콘텐츠 플랫폼의 저비용 필터링 솔루션 가능성을 제시한다.

섹션별 상세

AIGC 탐지를 위해 기존에 시도되던 Perplexity(당혹도) 기반 방식은 높은 추론 비용과 낮은 일반화 성능으로 인해 실용성이 떨어진다는 점을 확인했다. LLM을 사용하여 각 단어의 출현 확률을 계산하는 방식은 오탐율이 높고 로컬 배포가 어렵다는 한계가 존재한다.

Perplexity 기반 탐지 시도 시 나타난 토큰별 점수 그래프이다. — Chart특정 문장의 토큰별 점수를 시각화하여 AI 생성 여부를 판단하려 했으나, 임계값 설정의 어려움과 높은 오탐율로 인해 실패했음을 보여준다.

2022년 이전의 인간 작성 텍스트 10,000개를 수집하고, 이를 바탕으로 Gemini, Qwen, DeepSeek 등 7종의 LLM을 사용하여 요약 및 재작성 데이터를 생성하여 학습 데이터셋을 구축했다. API 비용 절감을 위해 배치 처리와 무료 베타 API를 활용하는 전략을 사용했다.

Scikit-learn의 TF-IDF 벡터화와 LinearSVC 분류기를 조합하여 모델을 학습시켰다. 문장 단위 정확도는 약 85%이며, 긴 글의 경우 여러 문장의 결과를 종합하여 매우 높은 신뢰도로 AI 여부를 판별할 수 있음을 입증했다.

text

===================================== SUMMARY
=====================================
model         s1 acc    s1 f1
gemini        0.8809    0.8082
qwen          0.8911    0.8974
pony          0.8493    0.8286
kimi25        0.8721    0.8473
glm47         0.8436    0.8222
doubao        0.8940    0.8700
deepseekv32   0.8529    0.8403

7개의 서로 다른 LLM 데이터를 기반으로 학습된 개별 이진 분류기들의 성능 요약 로그

초기 버전 모델의 혼동 행렬과 성능 지표 결과이다. — ScreenshotTF-IDF와 SVM을 사용한 초기 모델이 약 88%의 정확도를 달성했음을 보여주며, 고전적 ML 기법의 유효성을 증명하는 핵심 지표이다.

단일 모델의 한계를 극복하기 위해 7개의 서로 다른 LLM 데이터를 기반으로 한 이진 분류기를 만들고 다수결 투표(Majority Voting) 방식을 채택했다. 2개 이상의 모델이 AI로 판별한 문장을 강조 표시함으로써 탐지 결과의 견고함을 확보했다.

8개 클래스(인간 및 7종 AI) 다중 분류 시도 결과의 혼동 행렬이다. — Screenshot서로 다른 LLM 간의 텍스트 패턴이 너무 유사하여 다중 분류 정확도가 50% 수준으로 낮게 나타났음을 보여주며, 이로 인해 개별 이진 분류기 조합 방식으로 선회하게 된 근거를 제시한다.

서버 유지비용을 없애기 위해 Python 모델을 JavaScript로 이식하여 브라우저에서 직접 추론이 가능하도록 구현했다. 50만 개의 피처를 JSON 형태로 저장하고 gzipped 압축을 통해 전송량을 최적화했으며, 수천 자 분량의 텍스트를 10초 내외로 처리한다.

구글 번역기를 이용한 중역(CN-EN-CN)이나 AI 느낌을 줄여달라는 프롬프트 엔지니어링 기법을 통한 우회 시도를 테스트했으나, 탐지율이 소폭 하락할 뿐 여전히 유효하게 작동함을 확인하며 모델의 견고함을 확인했다.

실무 Takeaway

최신 LLM 텍스트도 TF-IDF와 SVM 같은 고전적 통계 기법으로 충분히 구별 가능한 고유의 패턴을 남긴다.
단일 모델의 판단보다 여러 LLM 기반 이진 분류기의 다수결 투표를 활용하면 탐지 정확도와 신뢰도를 크게 높일 수 있다.
모델 가중치를 JSON으로 내보내 브라우저에서 직접 추론하게 함으로써 서버 비용 없이 고성능 AI 탐지 서비스를 운영할 수 있다.

언급된 리소스

GitHubAITextDetector GitHub Repository

DemoAITextDetector Online Demo