핵심 요약
기존 멀티 에이전트 시스템은 텍스트 기반으로 소통하여 속도가 느리고 정보 손실이 컸으나, 이 논문은 에이전트 간 소통을 잠재 공간(Latent Space) 내의 재귀적 연산으로 전환하여 효율성을 극대화했다. 이를 통해 추론 속도를 최대 2.4배 높이면서 토큰 사용량은 최대 75.6%까지 절감하는 성과를 거두었다.
왜 중요한가
기존 멀티 에이전트 시스템은 텍스트 기반으로 소통하여 속도가 느리고 정보 손실이 컸으나, 이 논문은 에이전트 간 소통을 잠재 공간(Latent Space) 내의 재귀적 연산으로 전환하여 효율성을 극대화했다. 이를 통해 추론 속도를 최대 2.4배 높이면서 토큰 사용량은 최대 75.6%까지 절감하는 성과를 거두었다.
핵심 기여
RecursiveMAS 프레임워크 제안
전체 멀티 에이전트 시스템을 하나의 통합된 잠재 공간 재귀 연산으로 정의하여 이질적인 에이전트들을 가벼운 RecursiveLink 모듈로 연결했다.
RecursiveLink 모듈 설계
에이전트 내부의 사고 생성을 돕는 Inner Link와 서로 다른 모델 간의 잠재 상태 전송을 가능하게 하는 Outer Link로 구성된 2계층 잔차 투영 모듈을 개발했다.
Inner-Outer Loop 학습 알고리즘
개별 에이전트의 잠재 사고 정렬을 위한 Inner Loop와 시스템 전체의 협업 최적화를 위한 Outer Loop로 구성된 2단계 학습 패러다임을 도입했다.
성능 및 효율성 입증
9개 벤치마크에서 평균 8.3%의 정확도 향상을 달성했으며, 텍스트 기반 협업 대비 1.2~2.4배의 속도 향상과 34.6~75.6%의 토큰 절감을 확인했다.
핵심 아이디어 이해하기
기존의 멀티 에이전트 시스템은 에이전트 A가 텍스트를 생성하면 에이전트 B가 이를 다시 읽고 해석하는 과정을 반복한다. 이는 Transformer가 텍스트를 생성하기 위해 수행하는 고차원 벡터 연산을 매번 텍스트라는 좁은 통로로 압축했다가 다시 푸는 과정과 같아 비효율적이며, 이 과정에서 미세한 정보가 손실되고 연산 비용이 급증한다.
RecursiveMAS는 이 과정을 '잠재 공간(Latent Space)'에서의 직접적인 데이터 흐름으로 바꾼다. Transformer의 마지막 레이어에서 나오는 고차원 임베딩(Embedding) 벡터를 다음 에이전트의 입력 임베딩으로 직접 전달하는 방식이다. 이는 마치 두 사람이 말을 주고받는 대신 뇌의 신호를 직접 연결하여 정보를 공유하는 것과 유사한 원리이다.
이러한 방식은 Gradient Descent를 통한 학습 시에도 큰 이점을 준다. 텍스트 기반 소통은 미분 불가능한 텍스트 생성 과정을 포함하여 시스템 전체를 최적화하기 어렵지만, RecursiveMAS는 모든 소통이 벡터 연산으로 이루어지므로 역전파(Backpropagation)를 통해 시스템 전체의 협업 방식을 직접 학습시킬 수 있다. 결과적으로 에이전트들은 더 깊은 추론을 수행하면서도 불필요한 텍스트 생성 비용을 획기적으로 줄이게 된다.
관련 Figure

PCA 투영을 통해 라운드 1에서 3으로 갈수록 모델이 생성한 잠재 상태(주황색)가 실제 정답 분포(보라색)와 점점 더 일치해가는 과정을 보여준다. 이는 재귀가 실제로 의미론적 정제 과정을 수행함을 시각적으로 증명한다.
재귀 라운드 진행에 따른 잠재 임베딩 분포와 정답 분포의 정렬 시각화
방법론
RecursiveMAS는 이질적인 LLM 에이전트들을 재귀적 루프로 연결하는 구조를 가진다. 핵심은 RecursiveLink 모듈로, 이는 2개의 선형 레이어와 GELU 활성화 함수로 구성된 잔차 연결(Residual Connection) 구조이다. 입력 벡터 h에 대해 h + W2 * σ(W1 * h)를 계산하여 원래의 의미를 보존하면서도 에이전트 간의 분포 차이를 정렬한다.
학습은 2단계로 진행된다. 첫 번째 Inner-Loop 학습에서는 각 에이전트가 자신의 Inner RecursiveLink를 통해 잠재 사고(Latent Thoughts)를 생성하도록 훈련한다. 정답 텍스트의 임베딩 분포와 모델의 마지막 레이어 출력을 Cosine Similarity 손실 함수를 사용하여 정렬한다. [모델 출력 벡터 → Inner Link 연산 → 타겟 임베딩 벡터와 비교 → 유사도 극대화] 과정을 통해 개별 에이전트의 기초 역량을 확보한다.
두 번째 Outer-Loop 학습에서는 시스템 전체를 unroll하여 여러 라운드의 재귀를 수행한 뒤, 최종 출력에 대해 Cross-Entropy Loss를 계산한다. [입력 컨텍스트 → 에이전트 간 잠재 상태 전달 → 최종 텍스트 출력 → 정답과의 오차 계산] 순으로 진행되며, 이 오차(Loss)를 전체 재귀 경로를 따라 역전파하여 Outer RecursiveLink의 가중치를 갱신함으로써 에이전트 간의 협업 시너지를 최적화한다.
관련 Figure

에이전트 A1에서 생성된 잠재 사고가 Inner Link와 Outer Link를 거쳐 에이전트 A2로 전달되고, 마지막 에이전트 AN에서 다시 A1으로 순환되는 구조를 시각화한다. 텍스트 디코딩 없이 잠재 공간에서 루핑이 일어나는 핵심 메커니즘을 설명한다.
RecursiveMAS의 전체 아키텍처 다이어그램
주요 결과
실험 결과, RecursiveMAS는 MATH500, AIME2025, GPQA-Diamond 등 9개 주요 벤치마크에서 기존 텍스트 기반 멀티 에이전트 시스템(Recursive-TextMAS) 및 단일 모델 대비 일관된 성능 향상을 보였다. 특히 AIME2025에서는 텍스트 기반 방식 대비 정확도가 13.4%p 향상되는 등 고난도 추론 작업에서 강점을 드러냈다.
효율성 측면에서는 재귀 라운드가 깊어질수록 이점이 커졌다. 3라운드 재귀 시 텍스트 기반 방식보다 평균 2.4배 빠른 추론 속도를 기록했으며, 토큰 사용량은 75.6%까지 감소했다. 이는 중간 단계의 텍스트 디코딩 과정을 생략하고 잠재 공간에서 직접 연산하기 때문에 가능한 결과이다. 또한, Ablation Study를 통해 2계층 잔차 구조의 RecursiveLink가 단순한 선형 레이어보다 안정적인 학습과 높은 성능을 제공함을 입증했다.
관련 Figure

재귀 깊이가 깊어질수록 정확도가 일관되게 상승하는 스케일링 법칙을 보여준다. 또한 Mixture, Deliberation, Distillation 등 다양한 에이전트 구조에서도 RecursiveMAS가 기존 방식보다 우수한 성능과 속도를 보임을 입증한다.
RecursiveMAS의 재귀 라운드에 따른 성능 향상 및 다양한 협업 패턴별 정확도 비교 차트
기술 상세
RecursiveMAS는 전체 시스템을 하나의 거대한 Recursive Language Model(RLM)로 취급한다. 각 에이전트는 RLM의 한 레이어처럼 동작하며, 정보는 잠재 스트림을 통해 순환한다. 이론적 분석에 따르면, 텍스트 기반 소통은 어휘 사전 크기 |V|에 비례하는 디코딩 비용이 발생하지만, RecursiveMAS는 임베딩 차원 dh의 제곱에 비례하는 연산만 수행하므로 dh << |V|인 실제 환경에서 훨씬 효율적이다.
또한, 논문은 Gradient Stability 정리를 통해 텍스트 기반 SFT가 재귀 과정에서 Gradient Vanishing 문제를 겪는 반면, RecursiveLink를 통한 잠재 공간 소통은 Gradient Norm을 1에 가깝게 유지하여 안정적인 학습이 가능함을 수학적으로 증명했다. 구현 시에는 기본 LLM의 파라미터는 동결(Freeze)하고 가벼운 RecursiveLink 모듈만 학습시키므로, LoRA나 Full-SFT 대비 훨씬 적은 파라미터(약 0.31%)만으로도 더 높은 성능을 낼 수 있다.
관련 Figure

개별 에이전트를 병렬로 예열하는 단계와 전체 시스템을 연결해 종단간 최적화하는 단계를 구분하여 보여준다. 특히 Outer-Loop에서 역전파가 재귀 라운드를 가로질러 수행되는 과정을 명확히 나타낸다.
Inner-Loop 및 Outer-Loop로 구성된 2단계 학습 파이프라인
한계점
본 논문은 명시적으로 특정 한계점을 언급하기보다는, 재귀 라운드가 일정 수준(약 80단계의 잠재 사고 길이)을 넘어서면 성능 향상이 포화되는 경향이 있음을 실험적으로 보여주었다.
실무 활용
복잡한 추론이 필요한 수학, 과학, 코딩 분야의 멀티 에이전트 워크플로우에 즉시 적용 가능하다. 특히 API 비용 절감과 응답 속도 개선이 절실한 실시간 에이전트 서비스에 유용하다.
- 수학 및 과학 문제 풀이를 위한 전문가 에이전트 협업 시스템
- 코드 생성 및 검토를 반복하는 자율 코딩 에이전트 파이프라인
- 검색 결과와 내부 지식을 결합하여 답변을 정제하는 복합 QA 시스템
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.