Anthropic 연구원이 공개한 '에이전트 팀' 실험: 10만 줄의 C 컴파일러를 자율적으로 구축하다

핵심 요약

대형 언어 모델(LLM) 에이전트의 자율성을 극대화하기 위해 Anthropic은 여러 Claude 인스턴스가 병렬로 협업하는 '에이전트 팀(Agent Teams)' 방식을 실험했다. 연구원 Nicholas Carlini는 16개의 에이전트를 투입하여 리눅스 커널을 컴파일할 수 있는 Rust 기반 C 컴파일러를 밑바닥부터 구축하는 과제를 수행했다. 약 2주간 2,000번의 세션과 2만 달러의 비용을 들여 10만 줄 규모의 컴파일러를 완성했으며, 이는 LLM이 복잡한 소프트웨어 프로젝트를 인간의 개입 없이 수행할 수 있는 가능성을 입증했다. 이 과정에서 에이전트 간의 동기화, 고품질 테스트 하네스 설계, 병렬 처리 최적화 등 실무적인 교훈이 도출되었다.

배경

LLM 에이전트 개념, Git 워크플로우, 컴파일러 기초 지식, Docker

대상 독자

AI 에이전트 시스템 설계자, LLM 기반 자동화 도구 개발자, 소프트웨어 아키텍트

의미 / 영향

이 실험은 개별 에이전트의 성능 향상을 넘어 시스템으로서의 에이전트 협업이 거대 프로젝트를 완수할 수 있음을 보여준다. 향후 소프트웨어 개발 패러다임이 인간-AI 페어 프로그래밍에서 인간 감독 하의 AI 팀 운용으로 전환될 것임을 시사한다.

섹션별 상세

에이전트 팀의 자율 루프 구조: 기존의 Claude Code와 달리 인간의 개입 없이 지속적으로 작업을 수행하기 위해 '무한 루프 하네스'를 구축했다. 에이전트는 작업을 마치는 즉시 다음 작업을 스스로 선택하며, Docker 컨테이너 내에서 독립적으로 실행된다.

병렬 처리와 동기화 메커니즘: 16개의 에이전트가 동시에 작업할 수 있도록 Git 리포지토리를 활용한 잠금(Locking) 시스템을 도입했다. 각 에이전트는 특정 작업에 대해 텍스트 파일을 생성하여 소유권을 주장하며, 이를 통해 중복 작업을 방지하고 병렬 효율성을 높였다.

에이전트 전용 테스트 하네스 설계: 에이전트가 스스로 방향을 잡을 수 있도록 인간용이 아닌 '에이전트용' 테스트 환경을 구축했다. 컨텍스트 윈도우 오염을 막기 위해 로그를 간결하게 유지하고, 에이전트가 시간 감각이 없다는 점을 고려하여 결정론적 샘플링 테스트를 제공했다.

역할 분담과 전문화: 단순 구현 외에도 코드 중복 제거, 성능 최적화, 문서화, Rust 코드 품질 비평 등 특정 역할을 부여받은 전문 에이전트들을 운용했다. 이는 프로젝트의 전반적인 완성도를 높이는 데 기여했다.

실험 결과 및 비용: Opus 4.6 모델을 사용하여 20억 개의 입력 토큰과 1.4억 개의 출력 토큰을 소비했으며, 총 비용은 약 2만 달러가 소요되었다. 결과물인 컴파일러는 x86, ARM, RISC-V 아키텍처에서 리눅스 6.9 커널을 빌드할 수 있으며 Doom 게임 실행까지 성공했다.

한계와 안전성 우려: 16비트 x86 코드 생성의 한계나 비효율적인 최적화 등 기술적 제약이 여전히 존재한다. 또한 인간의 검증 없이 대량의 코드가 생성되는 것에 대한 보안 및 안전성 측면의 우려가 제기되었다.

실무 Takeaway

LLM 에이전트에게는 인간 중심의 피드백보다 기계가 읽기 쉬운 정형화된 로그와 요약된 통계 정보가 더 효과적이다.
복잡한 단일 작업을 병렬화하기 위해 기존의 검증된 도구(GCC)를 오라클로 활용한 차분 테스트(Differential Testing) 기법이 필수적이다.
에이전트 간의 충돌을 방지하기 위해 파일 시스템 기반의 단순한 잠금 메커니즘만으로도 상당한 수준의 협업이 가능하다.