DeepSeek V4 벤치마크 유출 및 Claude Code 컴퓨터 사용 기능 업데이트 | AI Trends

WorldofAIAI/ML조회 3회

DeepSeek V4 벤치마크 유출 및 Claude Code 컴퓨터 사용 기능 업데이트

DeepSeek V4의 강력한 성능 유출 정보와 Claude Code의 새로운 컴퓨터 제어 기능, Microsoft와 OpenAI의 최신 AI 도구 통합 소식을 다룹니다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

DeepSeek V4는 기존 모델들을 압도하는 성능을 예고했으며, Claude Code는 컴퓨터 직접 제어와 자동 모드를 통해 에이전트로서의 기능을 강화했다. Microsoft와 OpenAI는 멀티 모델 오케스트레이션과 도구 간 통합을 통해 생태계를 확장 중이다.

배경

DeepSeek V4의 성능 유출과 Anthropic의 Claude Code 업데이트 등 주요 AI 기업들의 최신 기술 동향이 공개됐다.

대상 독자

AI 개발자, 기술 분석가, LLM 성능에 관심 있는 사용자

의미 / 영향

DeepSeek의 급격한 성능 향상은 LLM 시장의 경쟁을 가속화하며, 특히 코딩 분야에서 오픈소스 계열의 강세를 예고한다. Claude Code와 Codex의 통합은 개발 도구 간의 경계가 허물어지고 있음을 보여주며, 개발자는 여러 에이전트를 동시에 활용하는 고도화된 워크플로를 구축하게 될 것이다. Microsoft의 멀티 모델 전략은 기업용 AI 서비스에서 정확도와 객관성을 확보하기 위한 핵심 아키텍처로 기능할 것이다.

챕터별 상세

00:26

DeepSeek V4 벤치마크 유출

DeepSeek V4의 라이트 버전으로 추정되는 모델의 벤치마크 수치가 유출됐다. 해당 모델은 약 200B 파라미터 규모에 1M 토큰 컨텍스트 윈도우를 지원하며, MHC 아키텍처를 통해 최대 1T 파라미터까지 확장이 가능하다. HumanEval에서 약 90%, SWE-bench에서 80% 이상의 점수를 기록하며 Claude Opus와 GPT-5.3을 능가하는 성능을 보였다. 이는 현재 시장에 출시된 모든 경쟁 모델의 코딩 성능을 상회하는 수치이다.

MHC(Multi-Head Concentration) 아키텍처는 모델의 효율적인 확장과 멀티모달 처리를 돕는 기술적 구조를 의미한다.

03:28

DeepSeek 서비스 중단 및 모델 교체 의혹

DeepSeek이 최근 7시간 동안의 서비스 중단 이후 모델을 조용히 교체했다는 의혹이 제기됐다. 중단 전에는 모델이 스스로를 V3로 식별했으나, 복구 후에는 '최신 버전'으로만 식별하며 SVG 생성 품질이 눈에 띄게 저하됐다. 과거에도 DeepSeek은 공식 발표 없이 모델을 교체한 사례가 있어 이번 성능 저하가 모델 변경과 관련이 있을 가능성이 높다. 사용자들은 특정 작업에서의 출력 품질 변화를 근거로 모델 다운그레이드 가능성을 지적했다.

04:09

Claude Code: 컴퓨터 사용 기능

Anthropic은 Claude Code에 macOS 앱을 열고 화면을 제어하며 타이핑할 수 있는 'Computer Use' 기능을 추가했다. CLI 환경에서 Claude가 직접 Swift 앱을 컴파일하고 실행한 뒤, UI 버튼을 클릭하며 결과를 스크린샷으로 확인하는 엔드 투 엔드 워크플로가 가능하다. 이 기능은 MCP 서버나 셸 명령으로 해결할 수 없는 GUI 기반 작업을 위한 최후의 수단으로 설계됐다. 사용자는 접근성 및 화면 기록 권한을 부여해야 하며, 보안을 위해 터미널 윈도우는 스크린샷에서 제외된다.

Computer Use는 AI가 인간처럼 마우스와 키보드를 조작하여 GUI 환경의 소프트웨어를 다루는 기술이다.

07:19

Claude Code: 자동 모드 출시

Claude Code에 매번 승인을 요청하지 않고 작업을 수행하는 'Auto Mode'가 도입됐다. 기존에는 모든 파일 쓰기와 Bash 명령마다 사용자 승인이 필요했으나, 자동 모드에서는 분류기(Classifier)가 안전한 작업을 판단하여 자동으로 진행한다. 위험한 작업은 여전히 차단되며, 개발자가 평소 승인하는 작업의 약 93%를 자동화하여 작업 흐름의 단절을 줄였다. 이 기능은 엔터프라이즈 플랜 및 API 사용자에게 우선 제공되며 대규모 리팩터링 작업에 유용하다.

08:36

Microsoft Copilot: 멀티 모델 지능 도입

Microsoft는 365 Copilot의 Researcher 에이전트에 멀티 모델 지능을 적용했다. 하나의 모델이 연구를 수행하면 다른 랩(Anthropic 또는 OpenAI)의 모델이 이를 검토(Critique)하여 최종 보고서를 작성하는 방식이다. 또한 'Council' 기능을 통해 Anthropic과 OpenAI 모델을 동시에 실행하고, 세 번째 모델이 두 모델의 합의점과 차이점을 요약하도록 했다. 이는 단일 모델의 편향성을 줄이고 정보의 정확도를 높이기 위한 아키텍처적 접근이다.

멀티 모델 오케스트레이션은 서로 다른 강점을 가진 여러 AI 모델을 조합하여 복잡한 문제를 해결하는 방식이다.

09:17

OpenAI Codex 플러그인 통합

OpenAI는 Claude Code 내부에서 직접 작동하는 Codex 플러그인을 출시했다. 이를 통해 사용자는 도구를 전환하지 않고도 Claude가 작성한 코드에 대해 Codex의 두 번째 의견을 받을 수 있다. 표준 리뷰 모드 외에도 구현 방식에 의문을 제기하는 적대적 리뷰(Adversarial Review) 모드와 작업을 Codex에 완전히 넘기는 핸드오프(Hand-off) 모드를 지원한다. 가장 강력한 두 가지 에이전트 도구가 공식적으로 통합되었다는 점에서 의미가 크다.

실무 Takeaway

DeepSeek V4는 MHC 아키텍처를 활용해 1T 파라미터 규모까지 확장하며 코딩 벤치마크에서 기존 SOTA 모델들을 압도했다.
Claude Code의 Computer Use 기능은 GUI 기반의 네이티브 앱 테스트와 빌드 과정을 CLI 내에서 자동화할 수 있게 한다.
멀티 모델 오케스트레이션(Council, Critique 패턴)은 단일 모델의 한계를 극복하고 결과물의 신뢰성을 높이는 실무 표준으로 자리 잡고 있다.
Claude Code의 Auto Mode를 활성화하면 반복적인 승인 절차 없이 대규모 코드 베이스 작업을 자율적으로 수행할 수 있다.

언급된 리소스

문서Claude Code Computer Use Documentation

GitHubOpenAI Codex Plugin for Claude Code

문서Microsoft 365 Copilot Multi-model Intelligence Blog

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 03. 31.수집 2026. 03. 31.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.