핵심 요약
멀티모달 에이전트(Multimodal Agents)는 이제 다양한 도구를 사용하여 복잡한 추론 작업을 처리할 수 있지만, 개방형 환경에서의 비효율적인 도구 사용과 경직된 오케스트레이션(Orchestration) 문제로 여전히 어려움을 겪고 있습니다. 핵심 과제는 이러한 에이전트가 과거의 궤적(Trajectories)으로부터 학습함으로써 파라미터 업데이트(Parameter Updates) 없이도 지속적으로 개선될 수 있도록 하는 것입니다. 본 연구에서는 이 목표를 달성하기 위해 필수적인 두 가지 상호 보완적인 재사용 가능 지식 형태를 식별했습니다. 첫째는 도구 선택 및 의사 결정을 위한 간결한 행동 수준의 지침을 제공하는 경험(Experiences)이며, 둘째는 계획 및 도구 사용을 위한 구조화된 작업 수준의 지침을 제공하는 기술(Skills)입니다. 이를 위해 멀티모달 에이전트에서 경험과 기술로부터 지속적으로 학습하기 위한 이중 스트림 프레임워크인 XSkill을 제안합니다. XSkill은 지식 추출과 검색 모두를 시각적 관찰(Visual Observations)에 기반을 둡니다. 축적 단계에서 XSkill은 시각 기반 요약(Visually Grounded Summarization)과 교차 롤아웃 비판(Cross-rollout Critique)을 통해 다중 경로 롤아웃(Multi-path Rollouts)으로부터 경험과 기술을 추출하고 통합합니다. 추론 단계에서는 이 지식을 현재의 시각적 문맥에 맞게 검색 및 적응시키고, 사용 이력을 다시 축적 단계로 피드백하여 지속적인 학습 루프를 형성합니다. 4개의 백본 모델을 사용하여 다양한 도메인의 5개 벤치마크에서 평가한 결과, XSkill은 도구 전용 및 학습 기반 베이스라인 모두를 일관되고 실질적으로 능가했습니다. 추가 분석을 통해 두 지식 스트림이 에이전트의 추론 행동에 영향을 미치는 데 상호 보완적인 역할을 하며 우수한 제로샷 일반화(Zero-shot Generalization) 성능을 보임을 확인했습니다.
핵심 기여
이중 스트림 지식 프레임워크 설계
행동 수준의 '경험'과 작업 수준의 '기술'을 분리하여 관리함으로써 멀티모달 에이전트의 세밀한 의사 결정과 거시적 계획 능력을 동시에 강화했다.
시각 기반 지식 추출 및 검색
지식의 추출과 검색 과정을 시각적 관찰에 직접 연동하여, 텍스트 정보만으로는 파악하기 어려운 환경적 맥락을 지식 활용에 반영하도록 설계했다.
파라미터 업데이트 없는 지속적 학습 루프
다중 경로 실행 결과에 대한 비판적 분석을 통해 지식을 정제하고, 추론 시의 피드백을 다시 저장소에 반영하여 모델 가중치 수정 없이도 성능을 지속적으로 향상시킨다.
방법론
XSkill은 시각적 관찰을 기반으로 경험(Experience)과 기술(Skill)을 추출하는 이중 스트림 구조를 채택한다. 다중 경로 롤아웃에서 얻은 데이터를 시각 기반 요약과 교차 롤아웃 비판 알고리즘을 통해 정제하여 지식 저장소에 축적하며, 추론 시에는 현재 시각 문맥에 가장 적합한 지식을 검색하여 에이전트의 행동을 가이드한다.
주요 결과
5개의 다양한 도메인 벤치마크에서 4종의 백본 모델을 대상으로 실험을 진행했다. XSkill은 기존의 도구 활용 전용 모델 및 학습 기반 에이전트 모델들과 비교했을 때 모든 지표에서 일관되게 우수한 성능을 기록했으며, 특히 학습하지 않은 새로운 환경에서도 뛰어난 제로샷 일반화 능력을 입증했다.
시사점
파라미터 업데이트 없이도 에이전트의 성능을 지속적으로 개선할 수 있어, 실시간으로 변화하는 환경이나 도구 세트가 자주 바뀌는 산업 현장에서 매우 유용할 것이다. 특히 시각 정보를 지식 검색의 핵심으로 활용하므로, 로보틱스나 복잡한 GUI 조작과 같은 시각 중심 작업의 효율성을 크게 높일 수 있다.
키워드
섹션별 상세
이중 스트림 지식 프레임워크 설계
시각 기반 지식 추출 및 검색
파라미터 업데이트 없는 지속적 학습 루프
AI 요약 · 북마크 · 개인 피드 설정 — 무료