에이전트 AI: 인지 아키텍처 개론 및 멀티 에이전트 시스템 분석 | AI Trends

서울대학교 DSBA 연구실AI/ML

에이전트 AI: 인지 아키텍처 개론 및 멀티 에이전트 시스템 분석

AI 에이전트의 인지 아키텍처를 단일 및 멀티 에이전트 구조로 분류하고, 환경과 액션 기반의 연구 관점 및 평가 지표를 상세히 다룹니다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

에이전트 AI는 단일 모델의 추론 능력에만 의존하는 것이 아니라, 제어 시스템과 유사한 재귀적 피드백 루프를 갖춘 아키텍처 설계가 필수적이다. 특히 멀티 에이전트 구조와 환경/액션 기반의 정교한 평가 지표 설정이 실무적 성능 확보의 관건이다.

배경

서울대학교 DSBA 연구실의 에이전트 AI 스터디 2주차 세션으로, 에이전트 시스템의 설계 패턴과 연구적 관점을 다룹니다.

대상 독자

AI 에이전트 시스템을 설계하려는 개발자 및 연구자

의미 / 영향

에이전트 시스템 설계가 단순한 프롬프트 엔지니어링을 넘어 제어 공학적 관점의 아키텍처 설계로 진화하고 있다. 특히 OS-World나 AgentBench와 같은 정교한 벤치마크를 통해 에이전트의 자율성과 안전성을 검증하는 프로세스가 기업용 에이전트 도입의 필수 단계가 될 것이다.

챕터별 상세

00:00

에이전트 AI 시스템의 설계 철학

에이전트 AI 시스템의 방법론은 아직 표준화된 정답이 없으며 경험적 지식이 축적되는 단계이다. 에이전트는 단일 LLM의 추론 능력에만 의존하지 않고, 관측(Observation), 계획 및 추론(Planning & Reasoning), 행동(Action)의 피드백 루프를 포함한 재귀적 구조를 갖는다. 이는 제어 시스템(Control System)과 유사하게 목표 상태에 도달하기 위해 반복적으로 수정 작업을 거치는 과정이다. 시스템의 구조, 프로세스, 인터페이스를 구성하여 성능, 강건성, 신뢰성, 보안을 개선하는 것이 핵심 목표이다.

04:43

Single Agent Architecture의 특징과 한계

단일 에이전트 아키텍처는 하나의 언어 모델이 모든 권한을 갖고 추론, 계획, 도구 호출을 수행한다. 타 모델의 피드백은 없으나 인간의 개입은 가능하며, 문제가 잘 정의된(Well-defined) 경우에는 멀티 에이전트보다 효율적일 수 있다. 하지만 과업이 복잡해질수록 단일 모델이 감당해야 할 도구와 서브 태스크가 많아져 선택 난이도가 상승하고 성능이 하락한다. RAISE 프레임워크와 같은 사례에서 보듯 메모리 메커니즘을 추가하여 성능을 높일 수 있으나, 복잡한 로직에서는 역할 혼동으로 인한 할루시네이션 발생 가능성이 높다.

09:30

Multi-Agent Architecture: Vertical vs Horizontal

멀티 에이전트 아키텍처는 복수의 LLM에게 서로 다른 페르소나와 권한을 부여하여 협력적으로 과업을 수행한다. 이는 크게 수직적(Vertical) 구조와 수평적(Horizontal) 구조로 분류된다. 수직적 구조는 하나의 리더 에이전트가 다른 에이전트들을 관리하고 보고받는 형태이며 분업이 매우 명확하다. 수평적 구조는 모든 에이전트가 평등하게 집단적 논의를 통해 문제를 해결하며, 공용 스레드에서 모든 소통을 공유한다. 멀티 에이전트는 성능 극대화가 가능하지만 에이전트 간 불필요한 행동이나 정보 누락 등의 관리 비용이 발생한다.

11:30

사례 연구: MetaGPT와 DyLAN

MetaGPT는 수직적 아키텍처의 대표 사례로, 에이전트 간 무의미한 잡담을 방지하기 위해 정형화된 출력(Structured Output)을 강제한다. 특히 Publish-Subscribe 메커니즘을 도입하여 모든 정보를 한 공간에 공유하되 각 에이전트가 자신의 과업과 관련된 정보만 읽도록 설계했다. 반면 DyLAN은 수평적 구조에 가까우며, 라운드마다 에이전트의 기여도를 평가하여 상위 에이전트만 다음 단계로 진출시키는 동적 팀 최적화 방식을 사용한다. 이러한 설계는 에이전트 간의 효율적인 정보 흐름과 성과 기반의 멤버 재편을 가능하게 한다.

15:07

에이전트 연구의 핵심: Rollout 관점

에이전트 연구는 단순히 서비스 구현을 넘어 롤아웃(Rollout)을 분석하는 과정이다. 롤아웃은 에이전트가 환경에 들어가 관측, 행동을 수행하며 상태가 변화하는 과정을 시간 순으로 기록한 궤적(Trajectory)이다. 에이전트의 성능은 단일 모델의 지능이 아니라 특정 환경에서 어떤 행동을 했고 그 결과가 얼마나 재현 가능한지에 따라 결정된다. 따라서 롤아웃 로그를 분석하여 논리적 설계를 경험적으로 검증하는 것이 에이전트 연구의 핵심이다.

19:20

Environment와 Action의 설계 요소

환경(Environment)은 관측 형태(텍스트, 이미지, DB 등), 상태 정의, 전이 규칙, 보상 및 제약 사항으로 구성된다. 특히 로보틱스 에이전트의 경우 상태 관측이 부정확할 수 있어 추정(Estimation) 과정이 포함된다. 액션(Action) 설계 시에는 행동의 최소 단위인 원자성(Atomicity), 수행 비용, 안전성, 복구 가능성을 고려해야 한다. 민감한 정보 전송이나 삭제와 같은 행동은 인간의 승인 루프를 포함하거나 룰 기반 정책을 적용하여 안전성을 확보해야 한다.

24:40

에이전트 성능 평가를 위한 벤치마크 분석

에이전트 평가는 단순 성공 여부를 넘어 효율성, 강건성, 신뢰성, 안전성, 사용자 만족도를 포함하는 다목적 최적화 문제이다. AgentBench는 8가지 복잡한 태스크를 통해 LLM의 에이전트 능력을 정량 평가하며, OS-World는 실제 컴퓨터 조작 환경에서 레이턴시와 토큰 소모량을 측정한다. OS-Harm과 같은 벤치마크는 유저의 오남용, 외부 공격, 모델의 오작동으로 인한 리스크를 측정하여 안전성을 검증한다. 이러한 벤치마크들은 에이전트가 실무 환경에서 얼마나 안전하고 효율적으로 작동하는지를 입증하는 기준이 된다.

실무 Takeaway

단일 에이전트 시스템은 구조가 단순하여 Well-defined 문제에 유리하지만, 과업이 복잡해질수록 역할 혼동과 할루시네이션이 발생하므로 멀티 에이전트 전환을 고려해야 한다.
멀티 에이전트 설계 시 MetaGPT처럼 Publish-Subscribe 메커니즘을 도입하면 에이전트 간 불필요한 잡담(Conversational Noise)을 줄이고 필요한 정보만 효율적으로 공유할 수 있다.
에이전트 평가는 단순 성공률뿐만 아니라 토큰 소모량, 레이턴시, 안전성(Safety) 등 다목적 최적화 관점에서 접근해야 실무적인 시스템 구축이 가능하다.
에이전트의 행동 설계 시 원자성(Atomicity)을 확보해야 평가와 학습이 용이하며, 실패 시 이전 상태로 되돌리는 복구(Recovery) 메커니즘이 시스템의 신뢰성을 결정한다.

언급된 리소스

논문The Landscape of Emerging AI Agent Architectures for Reasoning, Planning, and Tool Calling: A Survey

논문MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework

GitHubAgentBench: Evaluating LLMs as Agents

DemoOS-World: Benchmarking the Efficiency of Computer-Use Agents

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 01. 19.수집 2026. 02. 21.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.