앤스로픽, 중국 AI 기업 3곳의 '증류 공격' 폭로: 24,000개 가짜 계정으로 클로드 데이터 추출

핵심 요약

앤스로픽(Anthropic)은 중국의 주요 AI 스타트업인 딥시크(DeepSeek), 문샷 AI(Moonshot AI), 미니맥스(MiniMax)가 자사의 클로드(Claude) 모델을 대상으로 대규모 '증류(Distillation)' 공격을 감행했다고 발표했다. 이들은 약 24,000개의 가짜 계정을 생성하여 1,600만 건 이상의 대화를 생성했으며, 이를 통해 클로드의 핵심 역량인 에이전트 추론, 도구 사용, 코딩 능력을 자사 모델 학습에 활용한 것으로 나타났다. 앤스로픽은 이러한 행위가 미국의 AI 우위를 위협할 뿐만 아니라 안전 가이드라인이 제거된 위험한 모델의 확산을 초래할 수 있다고 경고하며 업계와 정책 입안자들의 공동 대응을 촉구했다.

배경

LLM 학습 및 추론 기본 개념, 모델 증류(Distillation)의 원리, 미-중 AI 기술 패권 경쟁 배경

대상 독자

AI 정책 입안자, LLM 보안 전문가, AI 기업 전략 담당자

의미 / 영향

이번 폭로는 미국의 대중국 기술 규제 논리에 강력한 근거를 제공하며, 향후 API 서비스 제공업체들이 비정상적인 대량 요청을 감지하고 차단하는 보안 기술에 더 많은 투자를 하게 만들 것이다.

섹션별 상세

앤스로픽은 중국의 3개 AI 연구소가 클로드 모델의 차별화된 기능을 모방하기 위해 조직적인 데이터 추출을 시도했다고 주장했다. 딥시크는 논리 및 정렬 개선을 위해 15만 건, 문샷 AI는 에이전트 추론 및 컴퓨터 사용 능력 타겟으로 340만 건, 미니맥스는 코딩 및 오케스트레이션 역량 확보를 위해 1,300만 건의 대화를 생성한 것으로 파악됐다. 특히 미니맥스는 최신 클로드 모델 출시 당시 트래픽의 절반을 데이터 추출에 할당하는 과감한 행태를 보였다.

이번 사건의 핵심 기술인 '모델 증류(Model Distillation)'는 대형 모델의 지식을 소형 모델로 이전하는 일반적인 기법이지만, 경쟁사의 모델을 무단으로 복제하는 수단으로 악용되고 있다. 앤스로픽은 이러한 대규모 추출 작업이 고성능 AI 칩에 대한 접근 없이는 불가능하다고 지적하며 현재 논란이 되고 있는 대중국 반도체 수출 통제의 정당성을 강조했다. 칩 접근 제한이 직접적인 모델 학습뿐만 아니라 불법적인 증류 공격의 규모도 억제할 수 있다는 논리다.

앤스로픽은 무단 증류가 국가 안보에 미치는 위험성을 강력히 경고했다. 미국 기업들은 생물 무기 개발이나 사이버 공격 등 위험한 용도로 AI가 사용되는 것을 방지하기 위한 안전 장치를 구축하지만, 불법 증류를 통해 만들어진 모델은 이러한 보호 조치가 제거된 채 배포될 가능성이 높다. 특히 이러한 모델이 오픈 소스로 공개될 경우 권위주의 정부의 감시나 여론 조작에 악용될 위험이 배가된다는 점을 우려하고 있다.

실무 Takeaway

모델 증류는 기술적 효율화 도구를 넘어 경쟁사 지적 재산을 탈취하는 산업 스파이 도구로 변질될 수 있으므로 API 제공업체의 모니터링 강화가 필수적이다.
중국 AI 기업들의 급격한 성능 향상 배경에 미국 선도 모델의 데이터를 대량으로 흡수하는 전략이 있었음이 구체적인 수치로 확인됐다.
AI 안전 가이드라인은 학습 데이터뿐만 아니라 모델의 출력 결과물에도 내재되어 있으나, 증류 과정에서 이러한 정렬(Alignment) 정보가 손실되어 보안 위협을 초래할 수 있다.