XSKILL: 멀티모달 에이전트의 경험과 기술로부터의 지속적 학습

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존 멀티모달 에이전트는 과거의 실수나 성공에서 배우지 못하고 매번 독립적으로 행동하는 한계가 있다. 이 논문은 별도의 모델 학습 없이도 과거의 실행 궤적에서 시각적 근거가 있는 '경험'과 '기술'을 추출해 저장하고, 이를 새로운 작업에 맞춰 변형해 재사용함으로써 에이전트의 도구 사용 효율과 유연성을 획기적으로 높인다.

왜 중요한가

핵심 기여

시각적 근거 기반의 이중 스트림 지식 체계 제안

작업 수준의 구조화된 가이드를 제공하는 '기술(Skills)'과 실행 문맥 및 실패 패턴에 기반한 행동 수준의 통찰을 제공하는 '경험(Experiences)'을 통합한 최초의 프레임워크임.

훈련이 필요 없는 지속적 학습 루프 구축

모델 파라미터를 업데이트하지 않고도 과거 실행 궤적에서 지식을 추출, 정제, 축적하여 에이전트의 성능을 점진적으로 개선하는 비파라미터적(non-parametric) 학습 방식을 구현함.

시각적 문맥에 최적화된 지식 적응 메커니즘

검색된 지식을 현재의 시각적 상황에 맞게 다시 쓰고 변형하는 'Experience Rewrite'와 'Skill Adaptation' 과정을 통해 일반적인 가이드를 구체적인 실행 계획으로 전환함.

핵심 아이디어 이해하기

멀티모달 에이전트는 이미지와 텍스트를 동시에 처리하며 도구를 사용하지만, 대부분 '상태 비저장(stateless)' 방식으로 동작한다. 즉, 이전에 비슷한 문제를 풀었더라도 그 과정에서의 시행착오를 기억하지 못해 매번 같은 실수를 반복하거나 비효율적인 도구 사용 패턴을 보인다. 특히 시각적 정보가 중요한 작업에서 텍스트 위주의 로그만으로는 왜 특정 행동이 실패했는지 정확히 파악하기 어렵다. XSKILL은 이를 해결하기 위해 인간이 문제를 해결하는 방식인 '기술 습득'과 '경험 축적'을 모사한다. '기술'은 특정 유형의 문제를 풀기 위한 표준 운영 절차(SOP)와 같고, '경험'은 특정 상황에서의 구체적인 행동 팁이다. 핵심은 이 모든 지식을 시각적 관찰(Visual Observation)과 연결하여 저장한다는 점이다. 새로운 문제가 주어지면 에이전트는 문제를 하위 작업으로 쪼개고, 각 단계에 필요한 기술과 경험을 지식 저장소에서 찾아낸다. 단순히 저장된 내용을 그대로 쓰는 것이 아니라, 현재 보고 있는 이미지의 특성에 맞춰 지식을 실시간으로 수정하여 프롬프트에 주입한다. 이를 통해 에이전트는 학습 없이도 시간이 지날수록 더 정교하고 효율적인 도구 사용 능력을 갖추게 된다.

방법론

XSKILL은 지식 축적(Phase I)과 작업 해결(Phase II)의 두 단계로 구성된다. 축적 단계에서는 여러 번의 실행(Multi-path rollouts)을 수행한 뒤, MLLMkb를 사용하여 시각적 근거가 포함된 요약을 생성하고 성공/실패 사례를 대조 분석(Cross-Rollout Critique)하여 일반화된 지식을 추출한다. 추출된 지식은 계층적 통합(Hierarchical Consolidation) 과정을 거친다. 새로운 경험 e가 들어오면 기존 항목과의 코사인 유사도 cos(vg, ve) > 0.70를 계산하여 유사도가 높으면 병합하고, 저장소 용량이 초과되면 품질 평가를 통해 불필요한 항목을 삭제한다. [입력: 새로운 지식과 기존 지식 벡터 → 연산: 코사인 유사도 측정 및 MLLM 기반 품질 평가 → 출력: 정제된 지식 베이스 → 의미: 지식의 중복을 막고 품질을 유지함] 추론 시에는 작업을 하위 작업으로 분해하고 각 하위 작업에 최적화된 지식을 검색한다. 검색된 지식은 'Experience Rewrite' 과정을 통해 현재 이미지와 쿼리에 맞게 재작성된다. [입력: 검색된 일반 지식, 현재 이미지, 쿼리 → 연산: MLLM 기반 문맥 맞춤형 재작성 → 출력: 실행 가능한 구체적 가이드 → 의미: 일반론적인 지식을 현재 상황에 즉시 적용 가능한 형태로 변환함]

주요 결과

VisualToolBench, TIR-Bench 등 5개 벤치마크에서 Gemini 2.5 Pro, GPT-5-mini 등 4개 모델을 대상으로 실험한 결과, 도구만 사용하는 베이스라인 대비 평균 2.58~6.71점의 성능 향상을 기록했다. 특히 복잡한 시각적 추론이 필요한 TIR-Bench에서는 Gemini-3-Flash 모델 기준 47.75%의 성공률을 보여 기존 SOTA인 Agent-KB를 11.13점 차이로 압도했다. 소스 모델에서 축적한 지식을 타겟 모델로 전이했을 때도 성능 향상이 유지되어 지식 구조의 범용성을 입증했다. 소거 연구 결과, '경험'과 '기술' 중 하나만 제거해도 성능이 각각 3.04점, 3.85점 하락하여 두 지식 스트림의 상호 보완적 역할이 확인되었다. 기술은 구조적 실수를 줄여 도구 사용 효율을 높이고, 경험은 문맥에 맞는 전략적 선택을 돕는 것으로 나타났다.

기술 상세

XSKILL 아키텍처는 실행 모델(MLLMexec)과 지식 관리 모델(MLLMkb)을 분리하여 설계되었다. 이는 지식 추출 및 정제에는 더 강력한 모델을 사용하고, 실제 실행에는 가벼운 모델을 사용하는 유연한 구성을 가능하게 하며 모델 간 지식 전이를 용이하게 한다. 지식 표현은 마크다운 기반의 기술 라이브러리와 JSON 기반의 경험 뱅크로 이원화된다. 기술은 메타데이터, 워크플로우 시퀀스, 재사용 가능한 도구 템플릿으로 정의된다. 경험은 트리거 조건, 권장 행동, 검색을 위한 시맨틱 임베딩 벡터로 구조화된다. 이러한 비파라미터적 접근은 POMDP 환경에서 에이전트가 시각적 관측값의 불완전성을 극복하도록 돕는다. 지식 축적 시 'Cross-Rollout Critique'는 성공한 궤적과 실패한 궤적을 대조하여 인과 관계를 파악한다. 이는 단순한 성공 사례 모방보다 더 깊은 수준의 전략적 통찰을 추출할 수 있게 하며, 'Experience Rewrite'는 검색된 지식의 환각을 방지하고 현재 시각적 문맥에의 접지를 보장한다.

한계점

현재 평가는 단일 '축적 후 테스트' 사이클에 집중되어 있어, 장기적인 다중 루프에서의 지식 포화나 간섭 현상에 대한 분석이 부족할 수 있다. 또한 지식 관리 모델(MLLMkb)의 성능에 전체 시스템의 지식 품질이 크게 의존한다.

실무 활용

별도의 모델 미세 조정 없이도 과거의 데이터를 활용해 에이전트의 성능을 지속적으로 개선할 수 있어 실무 적용성이 매우 높다. 특히 도구 사용 순서가 복잡하거나 시각적 예외 상황이 많은 산업 현장에서 유용하다.

복잡한 재무 제표나 도표를 분석하여 수치를 추출하고 계산하는 자동화 시스템
다양한 웹 도구와 이미지 검색을 병용해야 하는 멀티모달 정보 검색 에이전트
로봇 제어나 GUI 내비게이션 등 시각적 피드백에 따른 정밀한 도구 조작이 필요한 분야
사용자의 반복적인 피드백을 통해 특정 도메인 지식을 쌓아가는 맞춤형 AI 비서

코드 공개 여부: 공개

코드 저장소 보기

키워드

멀티모달 에이전트(Multimodal Agent)지속적 학습(Continual Learning)도구 사용(Tool Use)시각적 접지(Visual Grounding)비파라미터적 학습(Non-parametric Learning)