Anthropic, DeepSeek 등 중국 AI 기업들의 대규모 모델 증류 행위 탐지 및 공개

핵심 요약

Anthropic은 DeepSeek, Moonshot AI, MiniMax 등 중국 AI 기업들이 가짜 계정과 프록시 네트워크를 동원해 Claude 모델의 능력을 대규모로 추출했음을 확인했다. 이들은 약 24,000개의 계정을 통해 1,600만 건 이상의 대화를 생성하며 추론, 코딩, 도구 사용 능력을 체계적으로 수집했다. Anthropic은 행동 지문 분석과 API 트래픽 내 사고의 사슬(Chain-of-Thought) 패턴 탐지를 통해 이러한 시도를 차단했다. 증류된 모델은 안전 가드레일이 제거되어 생화학 무기나 사이버 공격 등 국가 안보 위협으로 이어질 위험이 크다.

배경

모델 증류(Model Distillation)의 개념, 사고의 사슬(Chain-of-Thought) 프롬프팅 이해, API 보안 및 트래픽 분석 기초 지식

대상 독자

AI 보안 전문가, LLM 서비스 운영자, AI 정책 및 안보 전략가

의미 / 영향

AI 모델의 지적 재산권 보호와 안전성 유지가 기술적 쟁점을 넘어 국가 안보 차원의 문제로 격상되었다. 모델 제공사들의 API 보안 및 이상 징후 탐지 기술이 프로덕션 환경에서 필수적인 요소가 될 것으로 보인다.

섹션별 상세

DeepSeek, Moonshot AI, MiniMax는 약 24,000개의 부정 계정을 생성하여 Claude의 핵심 역량을 체계적으로 추출했다. 전체 교환 규모는 1,600만 건을 상회하며, 이는 단순한 웹 스크래핑 수준을 넘어선 조직적인 모델 증류(Distillation) 작업이다. 특히 MiniMax는 상업용 프록시 네트워크를 통해 20,000개 이상의 가짜 계정을 동시에 운영하는 하이드라 클러스터 아키텍처를 활용하여 1,300만 건의 데이터를 수집했다.

각 기업은 Claude의 특정 기술 영역을 정밀하게 타겟팅했다. DeepSeek는 추론(Reasoning) 능력과 보상 모델링(Reward Modeling) 데이터 추출에 집중했다. Moonshot AI는 340만 건의 교환을 통해 에이전트 기반 코딩과 도구 사용(Tool Use) 능력을 확보하는 데 주력했다. 이러한 행위는 타사 모델의 출력을 학습 데이터로 사용하여 자사 모델의 성능을 고도화하려는 의도로 분석된다.

Anthropic은 API 트래픽 내에서 행동 지문(Behavioral Fingerprinting) 분석과 사고의 사슬(Chain-of-Thought) 유도 패턴을 식별하여 공격을 탐지했다. 증류된 모델은 원본 모델이 보유한 안전 가드레일이 제거된 상태로 배포될 위험이 있다. Anthropic은 이를 생화학 무기 제조, 공격적 사이버 작전, 감시 시스템 구축 등 국가 안보와 직결된 위험 요소로 규정하고 상세한 탐지 방법론을 업계 최초로 공개했다.

실무 Takeaway

모델 증류를 통한 성능 복제 시도는 API 트래픽 내 행동 지문 분석과 사고의 사슬(CoT) 패턴 탐지로 차단 가능하다.
증류 과정에서 모델의 안전 가드레일이 누락될 수 있으며, 이는 생화학 무기 및 사이버 공격 등 심각한 안보 위협을 초래한다.
대규모 언어 모델 제공사는 부정 계정과 프록시 네트워크를 이용한 조직적 데이터 추출에 대비한 보안 아키텍처를 강화해야 한다.

언급된 리소스

문서How Anthropic Detected Mass Distillation by DeepSeek