앤스로픽, 딥시크 등 중국 AI 기업의 대규모 '증류 공격' 탐지 및 대응 방안 발표

핵심 요약

대형 언어 모델의 핵심 능력을 무단으로 복제하려는 '증류 공격(Distillation Attacks)'이 산업적 규모로 확산되고 있다. 앤스로픽은 딥시크(DeepSeek), 문샷 AI(Moonshot AI), 미니맥스(MiniMax)가 약 24,000개의 허위 계정을 동원해 1,600만 건 이상의 상호작용을 생성하며 클로드(Claude)의 지적 재산을 추출한 정황을 포착했다. 이러한 공격은 미국의 수출 통제를 무력화하고 국가 안보 리스크를 초래할 수 있어, 앤스로픽은 탐지 시스템 강화와 정보 공유를 통해 대응하고 있다.

배경

LLM 학습 원리, 증류(Distillation) 개념, API 보안 기초

대상 독자

AI 보안 전문가, LLM 서비스 운영자, 정책 입안자

의미 / 영향

이번 발표는 중국 AI 기업들의 급격한 발전 뒤에 미국 모델의 무단 증류가 상당 부분 기여했음을 시사한다. 이는 향후 AI 모델 API의 접근 제어 강화와 국가 간 기술 패권 경쟁에서의 규제 강화로 이어질 가능성이 높다.

섹션별 상세

증류(Distillation)는 강력한 모델의 출력을 사용해 더 작고 효율적인 모델을 학습시키는 정당한 기법이지만, 경쟁사의 핵심 역량을 저비용으로 탈취하는 수단으로 악용되고 있다. 무단 증류된 모델은 앤스로픽이 구축한 안전 가이드라인이 결여될 가능성이 높아 생물무기 개발이나 사이버 공격 등 국가 안보에 심각한 위협이 될 수 있다.

딥시크, 문샷 AI, 미니맥스는 프록시 서비스와 '하이드라 클러스터(Hydra Cluster)' 아키텍처를 사용해 대규모 허위 계정 네트워크를 운영하며 클로드에 접근했다. 이들은 클로드에게 내부 추론 과정을 단계별로 서술하도록 유도하여 사고 체인(Chain-of-Thought) 데이터를 수집하거나, 검열을 피하기 위한 대체 답변을 생성하는 등 정교한 프롬프트를 반복 사용했다.

딥시크는 15만 건 이상의 교환을 통해 추론 및 보상 모델 학습 데이터를 추출했으며, 문샷 AI는 340만 건을 통해 에이전트 추론과 컴퓨터 사용 능력을 목표로 삼았다. 특히 미니맥스는 1,300만 건 이상의 압도적인 규모로 코딩 및 도구 사용 능력을 추출하려 시도했으며, 앤스로픽이 신규 모델을 출시하자 24시간 이내에 공격 대상을 변경하는 기민함을 보였다.

앤스로픽은 API 트래픽 내 증류 공격 패턴을 식별하는 분류기(Classifier)와 행동 지문(Behavioral Fingerprinting) 시스템을 구축하여 대응하고 있다. 또한 다른 AI 연구소 및 클라우드 제공업체와 기술 지표를 공유하고 계정 인증 절차를 강화하고 있으며, 업계와 정책 입안자들의 조율된 공동 대응이 필수적이다.

실무 Takeaway

모델의 출력값뿐만 아니라 '추론 과정(CoT)' 자체를 추출하려는 시도가 급증하고 있으므로 API 제공자는 이에 대한 모니터링을 강화해야 한다.
프록시 서비스를 통한 계정 우회 공격에 대비해 하이드라 클러스터 형태의 분산 요청 패턴을 탐지할 수 있는 행동 파악 시스템이 필요하다.
AI 모델의 안전 가드레일이 증류 과정에서 유실될 수 있다는 점을 인지하고, 국가 안보 차원의 기술 보호 대책을 수립해야 한다.

언급된 리소스

문서Partnering with Mozilla to improve Firefox’s security

문서Where things stand with the Department of War

문서Statement on the comments from Secretary of War Pete Hegseth

핵심 요약

배경

LLM 학습 원리, 증류(Distillation) 개념, API 보안 기초

대상 독자

AI 보안 전문가, LLM 서비스 운영자, 정책 입안자

의미 / 영향

섹션별 상세

실무 Takeaway

모델의 출력값뿐만 아니라 '추론 과정(CoT)' 자체를 추출하려는 시도가 급증하고 있으므로 API 제공자는 이에 대한 모니터링을 강화해야 한다.
프록시 서비스를 통한 계정 우회 공격에 대비해 하이드라 클러스터 형태의 분산 요청 패턴을 탐지할 수 있는 행동 파악 시스템이 필요하다.
AI 모델의 안전 가드레일이 증류 과정에서 유실될 수 있다는 점을 인지하고, 국가 안보 차원의 기술 보호 대책을 수립해야 한다.

언급된 리소스

문서Partnering with Mozilla to improve Firefox’s security

문서Where things stand with the Department of War

문서Statement on the comments from Secretary of War Pete Hegseth

앤스로픽, 딥시크 등 중국 AI 기업의 대규모 '증류 공격' 탐지 및 대응 방안 발표

핵심 요약

배경

대상 독자

의미 / 영향

섹션별 상세

실무 Takeaway

언급된 리소스

앤스로픽, 딥시크 등 중국 AI 기업의 대규모 '증류 공격' 탐지 및 대응 방안 발표

핵심 요약

배경

대상 독자

의미 / 영향

섹션별 상세

실무 Takeaway

언급된 리소스

관련 피드

관련 토론

댓글

관련 피드

관련 토론

댓글