AI 뉴스: Claude Code의 컴퓨터 사용 기능과 Hermes 에이전트의 부상

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

Anthropic이 Claude Code에 컴퓨터 사용(Computer Use) 기능을 추가하여 에이전트가 직접 앱을 실행하고 UI를 테스트할 수 있는 폐쇄 루프 검증 환경을 구축했다. 오픈 소스 진영에서는 Hermes 에이전트가 멀티 에이전트 프로필 기능을 업데이트하며 개인 비서를 넘어 에이전트 OS로 진화하고 있으며, Alibaba는 텍스트·이미지·오디오·비디오를 동시에 이해하는 Qwen3.5-Omni를 출시했다. 로컬 추론 분야에서는 llama.cpp가 GitHub 스타 10만 개를 달성하고 MacBook에서 397B 규모의 MoE 모델을 구동하는 등 하드웨어 제약을 극복하는 최적화 기술이 돋보인다. 이러한 변화는 단순 모델 성능 경쟁을 넘어 도구 연동, 런타임 오케스트레이션, 로컬 실행 환경 등 '하네스(Harness)' 경쟁으로 AI 개발의 중심축이 이동하고 있음을 시사한다.

배경

LLM API 및 CLI 도구 사용 경험, 에이전트 아키텍처 및 RAG 기본 개념, 로컬 추론 엔진(llama.cpp 등)에 대한 이해

대상 독자

프로덕션 환경에서 LLM 에이전트를 구축하고 비용 및 성능을 최적화하려는 개발자 및 연구자

의미 / 영향

이 뉴스는 AI 개발의 중심이 모델 자체의 지능에서 모델을 도구 및 로컬 환경과 연결하는 '하네스'와 '오케스트레이션'으로 이동하고 있음을 보여줍니다. 특히 로컬 추론 기술의 발전과 소형 모델 최적화 사례는 기업들이 고가의 API 의존도를 낮추고 자체적인 에이전트 인프라를 구축할 수 있는 실질적인 경로를 제시합니다.

섹션별 상세

Anthropic은 Claude Code CLI 내부에 컴퓨터 사용 기능을 통합하여 에이전트가 직접 앱을 열고 UI를 클릭하며 테스트할 수 있게 했다. 이는 코드 작성부터 실행, UI 검사, 수정으로 이어지는 '폐쇄 루프(Closed-loop)' 검증을 가능하게 하여 앱 반복 개발의 신뢰도를 높인다. 특히 OpenAI의 Codex 플러그인을 Claude Code 내에서 호출하는 등 에이전트 간의 상호 운용성이 표준화되는 추세다. 개발자들은 이를 통해 복잡한 앱 반복 작업을 자동화하고 검증 시간을 단축할 수 있다.

Nous의 Hermes 에이전트 업데이트는 각 봇에 독립적인 메모리와 기술, 히스토리를 부여하는 멀티 에이전트 프로필 기능을 도입했다. 이를 통해 Hermes는 단순한 개인 비서 수준을 넘어 재사용 가능한 에이전트 OS 추상화 단계로 진입했으며, 오픈 소스 모델 기반의 에이전트 도구 생태계가 급격히 확장되고 있다. 에이전트의 결정 과정을 로그로 남기고 이를 통해 더 작고 저렴한 모델을 파인튜닝하는 자가 개선 워크플로도 등장했다. 이는 폐쇄형 모델에 의존하지 않는 독립적인 에이전트 인프라 구축을 가능하게 한다.

Alibaba가 공개한 Qwen3.5-Omni는 텍스트, 이미지, 오디오, 비디오를 네이티브하게 이해하며 음성 지시만으로 웹사이트나 게임을 제작하는 '오디오-비주얼 바이브 코딩' 성능을 보여준다. 최대 10시간의 오디오와 400초 분량의 비디오 입력을 지원하며, 오디오 이해도 측면에서 Gemini 3.1 Pro를 능가하거나 대등한 수준의 벤치마크 결과를 기록했다. 이는 입력 모달리티의 통합이 에이전트의 실제 환경 인지 능력을 획기적으로 개선하고 있음을 증명한다. 멀티모달 입력 처리는 단순 텍스트 기반 에이전트의 한계를 넘어서는 핵심 요소로 자리 잡았다.

llama.cpp가 GitHub 스타 10만 개를 돌파하며 로컬 에이전트 워크플로의 중요성이 강조되는 가운데, MacBook Pro에서 397B 파라미터의 Qwen3.5 모델을 구동하는 기술이 공개됐다. Flash-MoE 기법을 활용해 SSD에서 가중치를 스트리밍하고 활성화된 전문가(Expert)만 로드함으로써 48GB 램 환경에서 초당 4.4 토큰의 속도를 구현했다. 이는 거대 모델의 추론이 더 이상 고가의 서버 인프라에만 국한되지 않고 로컬 하드웨어에서도 실용적인 수준으로 가능해지고 있음을 의미한다. 하드웨어 벤더에 종속되지 않는 휴대용 런타임 스택의 가치가 더욱 높아지고 있다.

에이전트 연구의 초점이 모델 자체에서 '하네스(Harness)' 공학으로 이동하며, 자연어 SOP를 통해 오케스트레이션 로직을 실행하는 방식이 제안되었다. CMU의 연구에 따르면 관리자 에이전트와 의존성 그래프를 활용한 비동기식 격리 위임(CAID) 구조가 단일 에이전트 대비 성능을 대폭 향상시킨다. 또한 거대 코드 베이스를 컨텍스트 윈도우에 넣는 대신 디렉토리 트리로 취급하여 에이전트가 쉘 명령어로 탐색하게 함으로써 3조 토큰 규모의 데이터도 처리할 수 있게 되었다. 이는 에이전트가 대규모 시스템을 다루는 방식에 대한 새로운 패러다임을 제시한다.

이미지 분석

Chart
AI 도입으로 인해 변화하는 기술 조직의 구조를 설명하기 위한 멘탈 모델로 사용되었다. 기존의 연령 기반 모델이 현대 기술 기업에 어떻게 적용되거나 변형되는지를 시각적으로 보여준다.
기업의 성장 단계와 연령에 따른 직무 역할(Founder, Architect, Operator 등)을 나타내는 2D 차트이다.

Diagram
AI 시대의 새로운 협업 모델을 설명하기 위해 게임의 역할 분담 개념을 차용했다. 각 역할이 기술 조직 내에서 어떤 기능적 대응점을 가지는지 직관적으로 전달한다.
월드 오브 워크래프트(WoW)의 팀워크 역할(Tank, Healer, DPS)을 기술 팀의 역할에 비유한 다이어그램이다.

실무 Takeaway

Claude Code의 '컴퓨터 사용' 기능을 활용하면 개발자가 CLI를 벗어나지 않고도 에이전트에게 UI 테스트 및 버그 수정을 맡겨 개발 생산성을 극대화할 수 있다.
RAG 시스템 구축 시 긴 컨텍스트를 모델에 직접 주입하는 대신, 에이전트가 파일 시스템을 탐색하며 필요한 정보를 찾는 방식을 도입하여 컨텍스트 비용을 절감하고 대규모 데이터를 효율적으로 처리할 수 있다.
Shopify의 사례처럼 비즈니스 로직을 분해하고 DSPy로 의도를 모델링한 뒤 최적화된 소형 모델로 전환하면, 성능을 유지하면서도 연간 API 비용을 550만 달러에서 7만 3천 달러 수준으로 98% 이상 절감 가능하다.