Latent Space PodcastLLM

Claude를 넘어 자율 에이전트로: Zach M의 Microagent 구축 및 평가 전략

Zach M이 Claude Projects의 한계를 극복하기 위해 구축한 독자적인 에이전트 시스템인 Microagent와 TDD 기반의 평가 스택을 소개한다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

에이전트 개발의 핵심은 투명한 로깅과 엄격한 평가 스택에 있다. TDD 패턴을 에이전트 개발에 도입하여 모델과 프로바이더의 성능을 객관적으로 비교하고 최적화할 수 있다.

배경

Claude Projects에서 시작된 개인용 코칭 에이전트가 복잡해짐에 따라, 특정 모델에 종속되지 않는 독립적인 에이전트 시스템의 필요성이 대두되었다.

대상 독자

AI 에이전트를 구축하려는 개발자, LLM 평가 시스템 설계자, 오픈소스 모델 활용에 관심 있는 엔지니어

의미 / 영향

이 영상은 개발자가 상용 서비스의 제약에서 벗어나 자체적인 에이전트 제어권을 확보하는 실전 방법론을 제시한다. 특히 TDD 기반의 평가 프레임워크는 기업들이 특정 벤더 종속성을 탈피하고 비용 효율적인 맞춤형 에이전트 시스템을 구축하는 데 중요한 가이드라인이 될 것이다.

챕터별 상세

00:00

에이전트 호출 및 응답의 투명성 확보

모든 API 호출과 응답을 JSONL 파일에 로깅하여 시스템의 투명성을 확보했다. 매일 하나의 파일이 생성되며 모든 메시지, 도구 호출, 응답이 기록되어 나중에 동일한 상황을 재현하고 분석할 수 있다. 이러한 로깅 방식은 에이전트의 동작을 추적하고 디버깅하는 데 필수적인 기반이 된다.

•API 호출 이력을 JSONL 형식으로 일별 로깅함
•로깅된 데이터는 에이전트 동작의 재현 및 분석에 활용됨
•투명한 로깅 시스템이 에이전트 신뢰성의 기초가 됨

00:09

에이전트 레이어의 소유권과 A/B 테스트

Claude에 종속되지 않고 자체적인 에이전트 레이어를 소유함으로써 다양한 요소들을 A/B 테스트할 수 있게 되었다. 컨텍스트 관리 방식, 모델 선택, 프로바이더 변경 등 전체 스택에 대한 제어권을 확보했다. 이를 통해 어떤 모델이나 접근 방식이 특정 작업에 더 효율적인지 객관적으로 검증할 수 있는 환경을 구축했다.

•특정 모델 벤더 종속성 탈피 및 제어권 확보
•모델, 프로바이더, 컨텍스트 관리 전략의 A/B 테스트 가능
•최적의 에이전트 성능을 찾기 위한 실험 환경 구축

00:40

독립적인 레이어 구조와 EVAL 시스템

EVAL Runner, Judge, Microagent, Skills 등 각 레이어가 독립적으로 변경될 수 있도록 시스템을 설계했다. 특정 레이어의 변경이 다른 레이어에 미치는 영향을 격리하여 반복적인 실험과 개선이 가능하게 했다. 각 레이어의 격리는 에이전트 스택의 유연성을 높이고 개발 속도를 가속화한다.

•EVAL Runner와 Judge를 포함한 계층적 아키텍처 설계
•각 레이어의 독립적 변경 및 반복 실험 지원
•시스템 유연성 확보를 위한 레이어 격리 전략 적용

02:10

에이전트 개발을 위한 TDD 패턴

전통적인 소프트웨어 개발의 TDD 패턴을 에이전트 개발에 이식했다. 시나리오를 먼저 작성하고 모델을 실행한 뒤, Judge가 결과를 판정하고 이를 바탕으로 스킬을 튜닝하는 사이클을 반복한다. 이는 비결정론적인 LLM의 동작을 체계적으로 관리하고 개선하는 데 효과적이다.

•에이전트 개발에 TDD(Test-Driven Development) 방법론 도입
•시나리오 작성-실행-판정-튜닝의 반복 사이클 구축
•비결정론적 동작을 제어하기 위한 체계적 접근

04:03

시나리오 복잡도에 따른 모델 차별화

단순한 일일 요약 시나리오에서 시작하여 복잡한 컨텍스트 패킹 시나리오로 테스트를 확장했다. 시나리오가 어려워질수록 모델 간의 성능 차이가 명확하게 드러나는 것을 확인했다. 특히 도구 호출의 정확도와 컨텍스트 활용 능력이 모델 평가의 핵심 지표가 되었다.

•단순 요약부터 복잡한 컨텍스트 활용까지 시나리오 확장
•난이도 높은 시나리오를 통한 모델 변별력 확보
•도구 호출 및 컨텍스트 로딩 능력 중심의 평가

09:30

결정론적 지표와 비결정론적 판단의 분리

EVAL 스택을 결정론적 지표 측정 레이어와 비결정론적 품질 판단 레이어로 분리했다. 토큰 수, 비용, 실행 시간 등은 코드로 정확히 측정하고, 답변의 품질이나 정확도는 LLM Judge가 루브릭에 따라 평가한다. 이러한 분리를 통해 지표의 신뢰성을 높이고 디버깅 효율을 개선했다.

•비용, 토큰 등 정량적 지표의 결정론적 측정
•LLM Judge를 활용한 정성적 품질의 비결정론적 평가
•평가 신뢰도 향상을 위한 2단계 평가 구조 채택

12:09

Microagent의 코드 구조와 개발 스택

Microagent는 약 1,500라인의 런타임 코드를 포함하여 총 3,600라인 정도의 Python 코드로 구성되어 있다. 패키지 관리를 위해 uv를 사용하고, pytest, ruff, mypy 등을 활용하여 코드 품질을 관리한다. 최소한의 코드로 가치 있는 결과를 내는 'Less is More' 철학을 유지하고 있다.

•Python 기반의 경량화된 에이전트 시스템 구축
•uv, pytest, ruff 등 현대적인 Python 개발 도구 활용
•코드 복잡도를 낮게 유지하며 핵심 기능에 집중

toml

[project.scripts]
microagent = "microagent:main"
eval-runner = "eval_runner:main"
eval-report = "eval_report:report_main"
check-style = "check_style:main"

pyproject.toml 파일에 정의된 에이전트 및 평가 도구의 CLI 엔트리 포인트 설정 예시

17:25

에이전트 보조 개발 워크플로

마크다운 기반의 백로그와 지침 파일을 사용하여 에이전트와 협업하는 워크플로를 구축했다. 에이전트가 린팅, 타입 체크, 스타일 가이드 적용 등을 자동으로 수행하도록 서브 에이전트를 배치했다. 개발자는 상위 수준의 의사결정에 집중하고 반복적인 작업은 에이전트에게 위임한다.

•마크다운 문서를 활용한 에이전트와의 컨텍스트 공유
•서브 에이전트를 통한 개발 자동화 프로세스 구축
•개발자의 생산성 향상을 위한 에이전트 협업 모델

30:30

오픈소스 모델 테스트 결과 및 향후 방향

GLM-4, DeepSeek, Qwen 등 다양한 오픈소스 모델을 테스트한 결과, 특정 조건에서 상용 모델에 필적하는 성능을 보였다. 특히 Nemotron-30B와 같은 모델이 도구 호출에서 놀라운 성능을 보여 자체 호스팅 가능성을 확인했다. 향후에는 멀티 턴 평가 시나리오와 에이전트 메모리 관리 기능을 확장할 계획이다.

•다양한 오픈소스 LLM의 도구 호출 및 요약 성능 검증
•Nemotron 등 중소형 모델의 실용적 가치 확인
•멀티 턴 시나리오 및 메모리 시스템 고도화 계획

실무 Takeaway

에이전트 개발 시 모든 API 입출력을 JSONL로 로깅하면 디버깅과 평가의 재현성을 획기적으로 높일 수 있다.
결정론적 지표(비용, 토큰)와 비결정론적 지표(품질)를 분리하여 평가 스택을 구축해야 모델 성능을 객관적으로 비교할 수 있다.
오픈소스 모델(DeepSeek, Qwen 등)도 적절한 프롬프트 엔지니어링과 도구 호출 최적화를 통해 상용 모델 수준의 에이전트 구현이 가능하다.

언급된 리소스

GitHubzachm/microagent

GitHubuv: Fast Python package manager

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 01. 15.수집 2026. 02. 21.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.

Claude를 넘어 자율 에이전트로: Zach M의 Microagent 구축 및 평가 전략 | AI Trends