멀티 에이전트 아키텍처 선택 가이드: 하위 에이전트, 스킬, 핸드오프 및 라우터

핵심 요약

단일 에이전트는 구축과 디버깅이 쉽지만 기능이 확장됨에 따라 컨텍스트 관리의 어려움과 팀 간 협업의 한계에 직면한다. LangChain은 이러한 제약을 해결하기 위해 하위 에이전트(Subagents), 스킬(Skills), 핸드오프(Handoffs), 라우터(Router)라는 네 가지 주요 멀티 에이전트 아키텍처 패턴을 제시한다. 각 패턴은 중앙 집중식 제어, 동적 페르소나 전환, 상태 기반 전이, 병렬 처리 및 합성 등 고유한 작동 방식을 가지며 성능과 비용 측면에서 뚜렷한 차이를 보인다. 개발자는 워크로드의 특성에 맞춰 적절한 패턴을 선택함으로써 LLM 애플리케이션의 효율성과 확장성을 극대화할 수 있다.

배경

LLM 프롬프트 엔지니어링 기초, 도구 호출(Tool Calling) 및 함수 호출 개념, 에이전트 오케스트레이션에 대한 기본 이해

대상 독자

프로덕션 환경에서 복잡한 LLM 애플리케이션을 설계하고 확장하려는 AI 엔지니어 및 아키텍트

의미 / 영향

이 가이드는 단순한 에이전트 구축을 넘어 대규모 시스템으로의 확장 경로를 제시한다. 적절한 아키텍처 선택은 운영 비용을 90%까지 절감하고 응답 속도를 개선하며 개발 팀 간의 독립적인 기능 유지보수를 가능하게 한다.

섹션별 상세

하위 에이전트(Subagents) 패턴은 관리자 에이전트가 도구 호출을 통해 전문화된 하위 에이전트들을 조율하는 중앙 집중식 오케스트레이션 방식이다. 관리자는 전체 대화 맥락을 유지하지만 하위 에이전트는 상태를 가지지 않아 강력한 컨텍스트 격리를 제공하며 복잡한 워크플로 제어에 유리하다. 다만 모든 결과가 관리자를 거쳐야 하므로 상호작용당 추가적인 모델 호출이 발생하여 지연 시간과 토큰 비용이 늘어나는 트레이드오프가 존재한다.

스킬(Skills) 패턴은 에이전트가 필요에 따라 전문화된 프롬프트와 지식을 동적으로 로드하는 방식으로 단일 에이전트가 여러 페르소나를 채택할 수 있게 한다. 초기에는 스킬의 이름과 설명만 알고 있다가 관련성이 생길 때 전체 컨텍스트를 로드하므로 가벼운 구성이 가능하고 직접적인 사용자 상호작용이 용이하다. 하지만 스킬이 로드됨에 따라 대화 기록에 컨텍스트가 누적되어 후속 호출 시 토큰 사용량이 급증할 수 있는 단점이 있다.

핸드오프(Handoffs) 패턴은 대화 맥락에 따라 활성 에이전트가 동적으로 교체되는 상태 기반 전이 방식이다. 각 에이전트는 도구 호출을 통해 다른 에이전트로 제어권을 넘길 수 있으며 이는 시스템 프롬프트나 가용 도구의 변경을 수반한다. 고객 지원 흐름처럼 단계별 정보 수집이 필요하거나 선행 조건이 충족되어야 다음 기능이 활성화되는 순차적 워크플로에 가장 적합하며 자연스러운 다회차 대화를 지원한다.

라우터(Router) 패턴은 입력 쿼리를 분류하여 여러 전문 에이전트에게 병렬로 전달하고 그 결과를 합성하여 최종 응답을 생성한다. 각 요청을 독립적으로 처리하는 무상태(Stateless) 설계로 일관된 성능을 제공하며 서로 다른 지식 도메인에 대한 동시 쿼리가 필요한 기업용 지식 베이스 구축에 효과적이다. 병렬 실행을 통해 효율성을 높일 수 있지만 대화 기록이 필요한 경우 반복적인 라우팅 오버헤드가 발생할 수 있다.

이미지 분석

Diagram
관리자 에이전트가 사용자 요청을 받아 전문화된 하위 에이전트 A, B, C에게 작업을 할당하고 결과를 취합하여 최종 응답을 생성하는 중앙 집중식 구조를 보여준다.
중앙 관리자 에이전트가 여러 하위 에이전트를 조율하는 하위 에이전트(Subagents) 아키텍처 다이어그램이다.

Diagram
에이전트가 상황에 맞춰 스킬 A, B, C의 컨텍스트를 동적으로 불러와 페르소나를 전환하며 작업을 수행하는 경량화된 멀티 에이전트 접근 방식을 설명한다.
단일 에이전트가 필요에 따라 특정 스킬을 로드하여 사용하는 스킬(Skills) 아키텍처 다이어그램이다.

Diagram
에이전트 A, B, C가 서로 양방향으로 제어권을 넘기며 상태를 유지하고 순차적인 워크플로를 처리하는 과정을 시각화한다.
에이전트 간에 제어권이 이동하는 핸드오프(Handoffs) 아키텍처 다이어그램이다.

Diagram
사용자 요청이 라우터를 통해 병렬로 에이전트 A, B, C에게 전달되고 합성기(Synthesizer)가 이를 통합하여 최종 응답을 만드는 무상태 병렬 처리 구조를 보여준다.
라우터가 요청을 분류하고 합성기가 결과를 합치는 라우터(Router) 아키텍처 다이어그램이다.

Screenshot
사용자 요청부터 관리자 호출, 하위 에이전트 호출, 도구 실행, 결과 반환 및 최종 응답까지의 흐름을 통해 하위 에이전트 패턴의 오버헤드를 설명한다.
하위 에이전트 패턴에서 단일 요청 시 발생하는 4회의 모델 호출 시퀀스 다이어그램이다.

Screenshot
무상태 설계로 인해 동일한 요청이 반복될 때 컨텍스트 재사용 없이 매번 동일한 수의 모델 호출이 발생하는 비용 특성을 보여준다.
반복 요청 시 하위 에이전트 패턴에서 발생하는 8회의 모델 호출 시퀀스 다이어그램이다.

Screenshot
파이썬, JS, 러스트 등 여러 도메인에 대한 분석 요청을 각각의 하위 에이전트가 병렬로 처리하여 전체 토큰 사용량을 최적화하는 과정을 나타낸다.
다중 도메인 쿼리 시 하위 에이전트의 병렬 실행 과정을 보여주는 시퀀스 다이어그램이다.

실무 Takeaway

반복적인 요청이 많은 워크로드에서는 핸드오프나 스킬 패턴을 사용하여 컨텍스트를 유지함으로써 모델 호출 횟수를 최대 40-50% 절감할 수 있다.
여러 도메인의 대량 문서를 참조해야 하는 다중 도메인 쿼리 시에는 하위 에이전트나 라우터 패턴을 통한 병렬 실행이 토큰 효율성과 속도 면에서 유리하다.
멀티 에이전트 도입 전 단일 에이전트와 우수한 프롬프트 엔지니어링으로 해결 가능한지 먼저 검토하고 명확한 한계에 부딪혔을 때 아키텍처를 확장해야 한다.