Anthropic, 중국 AI 연구소들의 대규모 '증류 공격' 폭로 및 업계 동향 요약

핵심 요약

Anthropic은 DeepSeek, Moonshot AI, MiniMax가 24,000개 이상의 허위 계정을 통해 Claude와 1,600만 건 이상의 대화를 나누며 모델 능력을 무단 추출했다고 발표했다. 이는 미-중 AI 경쟁 구도에서 모델 보안과 지적 재산권 보호의 중요성을 부각하는 사건이다. 동시에 업계에서는 SWE-Bench Verified의 신뢰성 하락으로 인한 벤치마크 개편, 코딩 에이전트의 실질적 도입, 추론 효율성을 위한 웹소켓 기술 적용 등 기술적 진보와 진통이 병행되고 있다.

배경

LLM 증류(Distillation) 개념, 코딩 에이전트 아키텍처, RAG 및 컨텍스트 윈도우 이해

대상 독자

AI 보안 전문가, LLM 애플리케이션 개발자, AI 전략 기획자

의미 / 영향

미-중 기술 패권 경쟁이 모델 가중치 탈취를 넘어 API를 통한 능력 추출 전쟁으로 번지고 있다. 이는 향후 AI 기업들의 API 보안 정책과 수출 통제 논의에 결정적인 영향을 미칠 것으로 보인다.

섹션별 상세

Anthropic은 DeepSeek, Moonshot AI, MiniMax가 산업적 규모의 증류 공격을 감행했다고 주장했다. 이들은 수만 개의 허위 계정을 생성하여 Claude의 추론, 코딩, 도구 사용 능력을 추출해 자사 모델 학습에 활용한 것으로 나타났다. 특히 MiniMax는 1,300만 건 이상의 대화로 가장 큰 규모를 기록했으며, Anthropic은 이러한 행위가 안전 가드레일을 무력화하고 군사적 용도로 전용될 위험이 있다고 경고했다.

Claude Code와 Codex 등 자율 코딩 에이전트의 도입이 가속화되면서 에이전트 공학이라는 새로운 분야가 형성되고 있다. Simon Willison은 에이전트 설계 패턴 가이드를 발표했으며, OpenClaw와 같은 오픈소스 프로젝트들이 컨테이너 격리 및 실시간 통신 기능을 강화하며 확장 중이다. 다만 에이전트에게 과도한 권한을 부여했을 때 발생하는 이메일 무단 삭제와 같은 부작용에 대한 경계의 목소리도 높다.

OpenAI는 기존 코딩 벤치마크인 SWE-Bench Verified의 지원 중단을 선언하며 해당 데이터셋이 오염되었거나 난이도가 포화 상태에 이르렀다고 진단했다. 이에 따라 더 엄격한 기준을 가진 SWE-bench Pro로의 전환이 권장되고 있으며, 모델의 성능뿐만 아니라 달러당 성능을 측정하는 새로운 평가 방식이 주목받고 있다. 또한 GPQA와 HLE 테스트 세트에서도 데이터 품질 오류가 발견되어 벤치마크 무용론이 확산되고 있다.

OpenAI는 도구 사용이 빈번한 에이전트의 지연 시간을 줄이기 위해 WebSockets 기반의 Responses API를 도입했다. 이를 통해 컨텍스트 전체를 매번 전송하는 대신 증분 입력이 가능해져 복잡한 워크플로에서 최대 50%의 속도 향상을 달성했다. 하드웨어 측면에서는 NVIDIA의 Blackwell 아키텍처에 최적화된 Qwen 3.5 MoE 모델이 공개되어 기존 대비 2배 빠른 추론 속도를 기록하는 등 인프라 효율화가 가속화되고 있다.

Citrini의 에세이를 중심으로 AI 에이전트가 화이트칼라 임금을 압박하고 유령 GDP를 생성할 것이라는 거시경제적 우려가 제기되었다. Anthropic의 연구에 따르면 AI 활용 능력은 단순한 프롬프트 작성이 아닌 반복적인 수정과 협업 과정에서 발생한다는 점이 확인되었다. 한편 OpenAI는 BCG, McKinsey 등 컨설팅 기업과 제휴하여 기업 현장에 AI 동료를 직접 배치하는 전략을 강화하며 실질적인 도입을 추진하고 있다.