생성형 AI 텍스트의 자동 탐지: 신경망 모델의 비교 프레임워크

왜 중요한가

LLM의 발전으로 인간과 AI가 쓴 글을 구분하기 어려워지면서 학계와 사법 분야에서 오판의 위험이 커지고 있다. 이 논문은 불투명한 상용 도구 대신 투명한 신경망 구조를 제안하여 다국어 및 특정 도메인 환경에서도 안정적인 탐지 성능을 입증했다.

핵심 기여

4종의 신경망 기반 탐지 아키텍처 설계

MLP, CNN 1D, MobileNet 기반 CNN, Transformer 모델을 구현하여 AI 텍스트 탐지 성능을 체계적으로 비교함.

상용 탐지 도구와의 벤치마크 수행

ZeroGPT, GPTZero 등 8개의 온라인 도구와 제안 모델을 비교하여 상용 도구의 낮은 일반화 성능과 불투명성을 확인함.

다국어 및 도메인 특화 데이터셋 평가

영어와 이탈리아어뿐만 아니라 예술 및 정신 건강이라는 특정 주제의 데이터셋을 통해 모델의 견고성을 검증함.

MobileNet 기반 1D CNN의 효율성 입증

파라미터 효율성이 높은 MobileNet 구조를 텍스트 데이터에 맞게 변형하여 높은 탐지 정확도와 안정적인 성능 균형을 달성함.

핵심 아이디어 이해하기

기존의 AI 텍스트 탐지는 주로 단어의 출현 빈도나 문장의 복잡도(Perplexity) 같은 통계적 지표에 의존했다. 하지만 최신 LLM은 인간의 글쓰기 스타일을 매우 정교하게 모방하므로, 단순한 통계량만으로는 문맥 속에 숨겨진 미세한 인공적 패턴을 찾아내기 어렵다. 이 논문은 텍스트를 수치화된 벡터 공간(Embedding)으로 변환한 뒤, 신경망이 이 공간에서 인간과 AI의 미세한 구조적 차이를 스스로 학습하도록 한다. 예를 들어 CNN은 인접한 단어들 사이의 국소적 패턴을 포착하고, Transformer는 문장 전체의 장거리 문맥 관계를 분석하여 AI 특유의 일관성이나 반복 패턴을 식별한다. 특히 MobileNet 구조를 도입하여 연산 효율을 높이면서도 중요한 특징만 골라내는 Depthwise Separable Convolution을 적용했다. 이를 통해 모델은 복잡한 문장 구조 속에서도 AI가 생성한 텍스트의 결정적인 증거를 더 정확하게 추출할 수 있게 되었다.

방법론

전체 파이프라인은 텍스트 입력, 토큰화(Tokenization), 임베딩 레이어, 신경망 특징 추출기, 전역 특징 풀링, 정규화(Dropout), 이진 분류 헤드로 구성된다. 모든 모델은 동일한 전처리 과정을 거쳐 공정한 비교가 가능하도록 설계되었다. MLP 모델은 토큰 임베딩의 평균값을 입력으로 받아 밀집 층을 통과시키며, CNN 1D는 커널 크기 128~400의 필터를 사용하여 단어 뭉치(n-gram) 수준의 국소 패턴을 추출한다. MobileNet 기반 모델은 1D Depthwise Separable Convolution을 사용하여 파라미터 수를 줄이면서도 표현력을 유지한다. Transformer 모델은 8개의 Attention Head를 가진 인코더 블록을 쌓아 문장 내 토큰 간의 장거리 의존성을 계산한다. 각 모델의 출력값 y_hat은 임계값 tau와 비교되어 최종적으로 인간(0) 또는 AI(1)로 분류된다. 임계값은 검증 데이터셋을 통해 정밀하게 튜닝되어 오탐지(False Positive)를 최소화하도록 설정되었다.

주요 결과

영어 데이터셋(dtEN)에서 MobileNet CNN이 91.67%의 정확도로 가장 우수한 성능을 보였으며, 이는 상용 도구인 GPTZero(90.0%)보다 높은 수치이다. MLP와 Transformer는 인간이 쓴 글을 보호하는 데 강점(정확도 97% 이상)을 보였으나 AI 텍스트 탐지율은 상대적으로 낮았다. 이탈리아어 전용 데이터셋(dtITA) 실험에서는 제안된 신경망 모델들이 100%의 탐지율을 기록한 반면, 대부분의 상용 도구는 성능이 급격히 저하되거나 모든 텍스트를 인간이 쓴 것으로 오분류하는 한계를 보였다. 예술 및 정신 건강 주제의 데이터셋(ART&MH)에서도 신경망 모델들은 98.3%의 높은 정확도를 유지했다. 특히 서로 다른 도메인에서 학습된 모델을 테스트했을 때, 다양한 주제에 노출된 모델일수록 언어 변화에 더 강한 내성을 가짐이 확인되었다.

실무 활용

교육 및 언론 분야에서 AI 생성 콘텐츠를 투명하게 식별하는 도구로 활용 가능하다. 오픈 소스 기반의 신경망 모델을 통해 상용 도구의 불투명성을 해소하고 도메인 맞춤형 탐지가 가능하다.

대학 과제 및 논문의 AI 대필 여부 스크리닝
뉴스 기사의 생성형 AI 사용 여부 검증
다국어 환경에서의 AI 텍스트 탐지 시스템 구축
특정 전문 도메인(예술, 의료 등) 특화 탐지 모델 개발

기술 상세

아키텍처는 모듈화된 구조를 채택하여 특징 추출기(Feature Extractor)만 교체하면 다양한 신경망을 테스트할 수 있다. 임베딩 차원은 모델에 따라 128에서 300 사이로 설정되었으며, 과적합 방지를 위해 0.2~0.3 수준의 Dropout과 Label Smoothing(0.05)이 적용되었다. MobileNet 1D CNN은 이미지 처리의 효율성을 텍스트 시퀀스 데이터로 확장한 사례로, 일반적인 Convolution 연산을 채널별 연산(Depthwise)과 포인트별 연산(Pointwise)으로 분리하여 계산 복잡도를 획기적으로 낮추었다. 실험 결과, MLP와 Transformer는 인간 텍스트에 대해 보수적인(Conservative) 예측 성향을 보여 False Positive를 줄이는 데 유리한 반면, CNN 계열은 AI 텍스트의 특징적인 패턴을 잡아내는 데 더 민감한(Sensitive) 특성을 보였다. 이는 사용 목적에 따라 아키텍처를 선택해야 함을 시사한다.

한계점

탐지 모델이 학습 데이터의 분포 변화(Distributional Shift)에 민감하며, 특히 특정 언어나 도메인에 최적화된 모델이 다른 환경에서 성능이 저하될 수 있음이 언급됨. 또한 상용 도구들의 내부 알고리즘이 비공개되어 있어 완전한 기술적 비교에는 한계가 존재함.

키워드

AI-generated Text Detection(AI 생성 텍스트 탐지)Neural Network(신경망)MobileNet(모바일넷)Transformer(트랜스포머)Multilingual(다국어)