WorldofAILLM조회 8회

Anthropic Claude Managed Agents 출시 및 Meta Muse Spark 공개

Anthropic의 관리형 에이전트 인프라 출시와 Meta의 차세대 추론 모델 Muse Spark, DeepSeek-V4의 초기 징후 등 최신 AI 기술 업데이트를 다룬다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

Anthropic은 인프라 관리 부담을 줄인 Claude Managed Agents를 통해 에이전트 상용화를 앞당기고 있다. Meta와 DeepSeek 역시 고도화된 추론 및 멀티모달 역량을 갖춘 차세대 모델을 선보이며 경쟁 우위를 확보하려 한다.

배경

AI 에이전트 구축의 복잡성을 해결하려는 Anthropic의 새로운 시도와 주요 빅테크 기업들의 차세대 모델 경쟁이 가속화되고 있다.

대상 독자

AI 개발자, 기술 결정권자, 최신 AI 모델 트렌드에 관심 있는 연구자

의미 / 영향

Anthropic의 관리형 서비스 출시로 인해 개별 기업이 복잡한 에이전트 인프라를 직접 구축해야 할 필요성이 크게 줄어들었다. 이는 AI 에이전트의 상용화 속도를 가속화하며, 개발자들은 인프라 운영보다 에이전트의 논리와 도구 연결 최적화에 더 많은 시간을 할애하게 될 것이다.

챕터별 상세

00:21

Claude Managed Agents: 에이전트 구축의 패러다임 변화

Anthropic은 에이전트 프로토타입 제작과 실제 프로덕션 배포 사이의 간극을 메우기 위해 Claude Managed Agents를 출시했다. 기존에는 샌드박스 실행 환경 구축, 세션 상태 관리, 인증 및 권한 설정 등에 수개월의 인프라 작업이 필요했으나 이를 플랫폼이 대신 관리한다. 개발자는 에이전트의 역할, 도구 접근 권한, 가드레일만 정의하면 Anthropic 인프라 위에서 즉시 실행 가능하다. 내부 테스트 결과 구조화된 파일 생성 작업에서 기존 프롬프트 루프 대비 성공률이 최대 10포인트 향상되었다.

•샌드박스, 세션 관리, 인증 등 복잡한 인프라를 Anthropic이 직접 관리
•연결이 끊겨도 상태가 유지되는 지속성 세션 기능 제공
•내부 테스트에서 작업 성공률 10포인트 향상 확인

01:55

실무 적용 사례 및 가격 정책

Notion, Sentry, Rakuten 등 주요 기업들이 이미 Claude Managed Agents를 도입하여 실무에 적용하고 있다. Notion은 워크스페이스 내에서 코딩, 슬라이드 생성, 스프레드시트 구축 등의 작업을 병렬로 수행하는 에이전트를 운영한다. Sentry는 버그 탐지부터 수정 코드 작성 및 PR 생성까지의 과정을 자동화했다. 가격은 기존 Claude API 토큰 요율에 활성 런타임 세션당 시간당 8센트가 추가되는 소비 기반 모델로 책정되었다.

•Notion, Sentry 등 주요 기업의 실제 배포 사례 공개
•버그 수정부터 PR 생성까지 자동화하는 워크플로 구현
•토큰 비용 외에 세션 시간당 8센트의 추가 비용 발생

python

session = client.agents.sessions.create(
    agent_id="agent_01JR4Kw9"
)

client.agents.sessions.events.send(
    session_id=session.id,
    events=[{
        "type": "user",
        "content": [{
            "type": "text",
            "text": "Evaluate an acquisition of [company]."
        }]
    }]
)

Claude Managed Agents API를 사용하여 에이전트 세션을 생성하고 이벤트를 전송하는 예시

03:27

Meta Muse Spark: 개인용 초지능을 향한 첫걸음

Meta는 새로운 '초지능 연구소'에서 개발한 첫 번째 모델인 Muse Spark를 공개했다. 이 모델은 Llama 시리즈의 업데이트가 아닌 완전히 새로운 모델 패밀리로, 네이티브 멀티모달 추론 역량을 갖추고 있다. 도구 사용, 시각적 사고 과정(Visual Chain of Thought), 멀티 에이전트 오케스트레이션 기능을 기본적으로 지원한다. 특히 사용자의 특정 맥락, 환경, 건강 상태 등을 이해하는 '개인용 초지능' 구현을 목표로 설계되었다.

•Llama와는 별개인 새로운 네이티브 멀티모달 추론 모델 패밀리
•시각적 사고 과정(Visual CoT) 및 도구 사용 능력 내장
•사용자 개인의 맥락을 깊이 이해하는 개인용 초지능 지향

04:29

Muse Spark의 성능과 혁신적 기능

Muse Spark는 멀티모달 지각 및 에이전트 작업 벤치마크에서 GPT-4.6 및 Gemini 3.1 Pro와 대등한 성능을 기록했다. 새롭게 도입된 '숙고 모드(Contemplating Mode)'는 단일 모델의 사고 시간을 늘리는 대신 여러 에이전트를 병렬로 실행해 협업하게 함으로써 지연 시간을 줄이면서도 복잡한 문제 해결 능력을 높였다. 또한 Meta는 지난 9개월간 프리트레이닝 스택을 재구축하여 Llama 4 Maverick 수준의 성능을 10배 적은 연산량으로 달성했다고 주장했다.

•병렬 에이전트 협업을 통한 '숙고 모드'로 추론 성능 극대화
•기존 대비 10배 적은 컴퓨팅 자원으로 고성능 달성
•모델이 스스로 평가받고 있음을 인지하고 정직하게 행동하는 '평가 인식' 특성 발견

06:15

DeepSeek-V4의 등장 징후와 전문가 모드

DeepSeek은 별도의 공지 없이 웹사이트와 앱에 '인스턴트 모드'와 '전문가 모드'를 추가했다. 전문가 모드는 수학 및 논리 추론 등 복잡한 작업에서 뛰어난 성능을 보이며, 이는 곧 출시될 DeepSeek-V4의 초기 테스트 버전으로 해석된다. 실제로 모델에게 버전을 물었을 때 'DeepSeek-V4.2'라고 답변하며 2025년 5월까지의 지식 컷오프를 언급한 사례가 포착되었다. 이는 DeepSeek이 처음으로 도입한 제품 계층화로, 글로벌 규모의 인프라 비용 관리를 위한 전략으로 풀이된다.

•복잡한 추론에 특화된 '전문가 모드' 조용히 출시
•모델 답변을 통해 DeepSeek-V4 및 2025년 5월 지식 컷오프 확인
•인프라 비용 효율화를 위한 서비스 계층화 전략 시작

08:16

Anthropic Mythos Preview: 보안 특화 코딩 모델

Anthropic은 현존하는 가장 강력한 코딩 역량을 갖춘 Claude Mythos Preview를 발표했다. SWE-bench Pro에서 77.8%를 기록하며 GPT-5.4(57.7%)를 크게 앞서는 압도적인 성능을 보여주었다. 하지만 Anthropic은 이 모델을 일반에 공개하는 대신 'Project Glasswing'을 통해 주요 테크 기업들에게만 제공하여 사이버 보안 방어 업무에 활용하고 있다. Mythos는 이미 주요 운영체제와 웹 브라우저에서 수천 개의 제로데이 취약점을 찾아내는 성과를 거두었다.

•SWE-bench Pro 리더보드에서 압도적 1위 기록
•보안 위험으로 인해 일반 공개 대신 특정 파트너사에게만 제공
•수십 년 된 운영체제 및 브라우저의 취약점을 자동으로 탐지

실무 Takeaway

Claude Managed Agents를 활용하면 인프라 구축 비용 없이 엔터프라이즈급 에이전트를 며칠 내에 배포할 수 있다.
Meta의 Muse Spark는 멀티 에이전트 병렬 협업(숙고 모드)을 통해 추론 성능과 지연 시간 사이의 균형을 맞췄다.
DeepSeek-V4는 2025년 중반까지의 최신 지식을 포함하고 있으며 전문가 모드를 통해 고난도 추론 성능을 제공한다.
최고 성능의 코딩 모델(Mythos)은 보안 취약점 탐지 등 방어적 목적으로 우선 활용되는 추세이다.

언급된 리소스

API DocsClaude Managed Agents Documentation

문서Meta Muse Spark Announcement

DemoDeepSeek Platform

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 04. 09.수집 2026. 04. 09.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.