핵심 요약
대형 언어 모델의 핵심 능력을 무단으로 복제하려는 '증류 공격(Distillation Attacks)'이 산업적 규모로 확산되고 있다. 앤스로픽은 딥시크(DeepSeek), 문샷 AI(Moonshot AI), 미니맥스(MiniMax)가 약 24,000개의 허위 계정을 동원해 1,600만 건 이상의 상호작용을 생성하며 클로드(Claude)의 지적 재산을 추출한 정황을 포착했다. 이러한 공격은 미국의 수출 통제를 무력화하고 국가 안보 리스크를 초래할 수 있어, 앤스로픽은 탐지 시스템 강화와 정보 공유를 통해 대응하고 있다.
배경
LLM 학습 원리, 증류(Distillation) 개념, API 보안 기초
대상 독자
AI 보안 전문가, LLM 서비스 운영자, 정책 입안자
의미 / 영향
이번 발표는 중국 AI 기업들의 급격한 발전 뒤에 미국 모델의 무단 증류가 상당 부분 기여했음을 시사한다. 이는 향후 AI 모델 API의 접근 제어 강화와 국가 간 기술 패권 경쟁에서의 규제 강화로 이어질 가능성이 높다.
섹션별 상세
증류(Distillation)는 강력한 모델의 출력을 사용해 더 작고 효율적인 모델을 학습시키는 정당한 기법이지만, 경쟁사의 핵심 역량을 저비용으로 탈취하는 수단으로 악용되고 있다. 무단 증류된 모델은 앤스로픽이 구축한 안전 가이드라인이 결여될 가능성이 높아 생물무기 개발이나 사이버 공격 등 국가 안보에 심각한 위협이 될 수 있다.
딥시크, 문샷 AI, 미니맥스는 프록시 서비스와 '하이드라 클러스터(Hydra Cluster)' 아키텍처를 사용해 대규모 허위 계정 네트워크를 운영하며 클로드에 접근했다. 이들은 클로드에게 내부 추론 과정을 단계별로 서술하도록 유도하여 사고 체인(Chain-of-Thought) 데이터를 수집하거나, 검열을 피하기 위한 대체 답변을 생성하는 등 정교한 프롬프트를 반복 사용했다.
딥시크는 15만 건 이상의 교환을 통해 추론 및 보상 모델 학습 데이터를 추출했으며, 문샷 AI는 340만 건을 통해 에이전트 추론과 컴퓨터 사용 능력을 목표로 삼았다. 특히 미니맥스는 1,300만 건 이상의 압도적인 규모로 코딩 및 도구 사용 능력을 추출하려 시도했으며, 앤스로픽이 신규 모델을 출시하자 24시간 이내에 공격 대상을 변경하는 기민함을 보였다.
앤스로픽은 API 트래픽 내 증류 공격 패턴을 식별하는 분류기(Classifier)와 행동 지문(Behavioral Fingerprinting) 시스템을 구축하여 대응하고 있다. 또한 다른 AI 연구소 및 클라우드 제공업체와 기술 지표를 공유하고 계정 인증 절차를 강화하고 있으며, 업계와 정책 입안자들의 조율된 공동 대응이 필수적이다.
실무 Takeaway
- 모델의 출력값뿐만 아니라 '추론 과정(CoT)' 자체를 추출하려는 시도가 급증하고 있으므로 API 제공자는 이에 대한 모니터링을 강화해야 한다.
- 프록시 서비스를 통한 계정 우회 공격에 대비해 하이드라 클러스터 형태의 분산 요청 패턴을 탐지할 수 있는 행동 파악 시스템이 필요하다.
- AI 모델의 안전 가드레일이 증류 과정에서 유실될 수 있다는 점을 인지하고, 국가 안보 차원의 기술 보호 대책을 수립해야 한다.
AI 분석 전체 내용 보기
AI 요약 · 북마크 · 개인 피드 설정 — 무료