DeepLearning.AI The Batch: Claude Opus 4.5, Amazon Nova 2 출시 및 AI 에이전트 구축 가이드

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

이번 호에서는 앤드류 응이 제안하는 aisuite와 MCP를 활용한 간단한 에이전트 구축 방법과 함께 Anthropic의 새로운 플래그십 모델 Claude Opus 4.5의 출시 소식을 전한다. 또한 미국 정부가 과학적 돌파구를 위해 추진하는 'Genesis Mission'과 Amazon의 강력한 Nova 2 모델 제품군 공개 등 업계의 주요 변화를 다룬다. 마지막으로 거대 언어 모델이 어려워하는 퍼즐 문제를 해결하는 500만 파라미터 규모의 Tiny Recursive Model(TRM) 연구를 소개하며 효율적인 AI 설계의 가능성을 제시한다.

배경

LLM API 사용 경험, Python 프로그래밍 기초, RAG 및 에이전트 개념에 대한 이해

대상 독자

AI 에이전트를 구축하려는 개발자, 최신 LLM 벤치마크와 모델 동향을 파악하려는 엔지니어 및 연구자

의미 / 영향

Claude와 Amazon의 신규 모델 출시는 모델 간 성능 격차가 줄어드는 추세를 보여주며, 이제는 단순 성능보다 토큰 효율성과 에이전트 실행 능력이 핵심 경쟁력이 되고 있다. 또한 미 정부의 Genesis Mission은 AI가 과학적 발견의 보조 도구를 넘어 자율적인 연구 파트너로 진화하고 있음을 시사한다.

섹션별 상세

앤드류 응은 aisuite 패키지와 MCP(Model Context Protocol)를 활용해 누구나 쉽게 자율적인 에이전트를 구축할 수 있는 방법을 제안했다. aisuite는 여러 LLM 제공자를 쉽게 전환할 수 있게 해주며, MCP 지원을 통해 파일 시스템 접근이나 웹 검색 같은 도구를 에이전트에게 간편하게 부여할 수 있다.

python

import aisuite as ai
from aisuite.mcp import MCPClient

# Step 1: Initialize MCP Client for using filesystem based tools
filesystem = MCPClient(
    command="npx",
    args=["-y", "@modelcontextprotocol/server-filesystem", os.getcwd()]
)

# Step 2: Execute agent using frontier model
client = ai.Client()
response = client.chat.completions.create(
    model="openai:gpt-5.1", # Swap with Gemini, Opus, or others.
    messages=[{"role": "user", "content": prompt}],
    # Pass filesystem tool, or provide your own tool to save files.
    tools=filesystem.get_callable_tools(),
    max_turns=5
)

aisuite와 MCP를 사용하여 파일 시스템 접근 권한을 가진 AI 에이전트를 초기화하고 실행하는 예시 코드

aisuite와 MCP를 사용하여 Snake 게임을 생성하는 Python 코드와 실제 실행 화면을 보여주는 스크린샷이다. — Screenshot앤드류 응이 제안한 간단한 에이전트 구축 레시피를 시각화한 것이다. 왼쪽의 코드는 MCP 파일 시스템 도구를 초기화하고 LLM에 게임 제작을 요청하는 과정을 담고 있으며, 오른쪽은 그 결과로 생성된 현대적인 Snake 게임 인터페이스를 보여준다.

Anthropic은 이전 모델보다 토큰 생성 효율이 높고 코딩 성능이 뛰어난 Claude Opus 4.5를 출시했다. 이 모델은 동일한 결과를 내는 데 경쟁 모델 대비 절반 수준의 토큰만 사용하며, 특히 터미널 작업과 복잡한 엔지니어링 시험에서 인간 전문가를 능가하는 성능을 입증했다.

Claude Opus 4.5와 다른 주요 모델들의 코딩 및 추론 성능을 비교한 벤치마크 표이다. — ChartClaude Opus 4.5가 SWE-bench Verified(80.9%) 및 Terminal-bench 2.0(59.3%)에서 Sonnet 4.5나 GPT-5.1 등 경쟁 모델을 앞서는 성능을 보여준다. 특히 에이전트 도구 사용 및 대학 수준 추론(GPQA)에서 최상위권 성적을 기록하고 있음을 확인할 수 있다.

미국 백악관은 에너지부 산하 17개 국립 연구소와 민간 기업(OpenAI, Nvidia 등)이 협력하여 과학 연구를 가속화하는 'Genesis Mission'을 발표했다. 이 프로젝트는 연방 데이터셋을 활용해 과학용 파운데이션 모델과 자율 실험 로봇 시스템을 구축하여 에너지, 의학, 반도체 분야의 혁신을 목표로 한다.

Amazon은 멀티모달 추론과 브라우저 자동화 기능을 갖춘 Nova 2 모델 제품군(Pro, Lite, Omni, Sonic)을 공개했다. 특히 Nova 2 Pro는 에이전트 벤치마크인 τ²-Bench에서 최상위권 성적을 기록했으며, Nova Forge 서비스를 통해 기업이 자체 데이터를 결합하여 모델을 커스텀 학습시킬 수 있는 환경을 제공한다.

Amazon Nova 2 Pro와 Claude, GPT, Gemini 모델들의 성능을 다양한 지표로 비교한 표이다. — ChartNova 2 Pro가 특히 에이전트 워크플로 지표인 τ²-Bench Telecom(92.7%)에서 매우 높은 성적을 거두었음을 보여준다. MMLU-Pro나 GPQA Diamond 같은 핵심 지능 지표에서는 Gemini 3 Pro Preview 등에 비해 다소 낮지만, 실무적인 도구 사용 능력에서 경쟁력이 있음을 나타낸다.

삼성 연구진이 개발한 Tiny Recursive Model(TRM)은 반복적인 솔루션 정제 과정을 통해 Sudoku와 ARC-AGI 퍼즐에서 대형 모델을 능가하는 성능을 보였다. 500만~700만 파라미터의 작은 크기임에도 불구하고, 컨텍스트 임베딩을 재귀적으로 업데이트하는 방식을 통해 논리적 추론이 필요한 복잡한 그리드 문제를 효과적으로 해결했다.

실무 Takeaway

aisuite와 MCP를 결합하면 복잡한 스캐폴딩 코드 없이도 파일 시스템 접근이나 웹 검색이 가능한 기초적인 AI 에이전트를 즉시 구현할 수 있다.
Claude Opus 4.5는 이전 모델 대비 토큰 사용량을 대폭 줄이면서도 엔지니어링 시험에서 인간을 능가하는 수준의 높은 추론 능력을 제공하여 비용 효율성을 높였다.
Amazon Nova 2 Pro는 브라우저 자동화 서비스인 Nova Act와 결합하여 웹 탐색, 폼 작성, 데이터 추출 등 실질적인 에이전트 업무 수행에 최적화된 성능을 보여준다.

언급된 리소스

GitHubaisuite GitHub Repository

튜토리얼Snake Game Generation Notebook

튜토리얼Multi-Vector Image Retrieval Short Course