일반 시각 에이전트를 위한 다중모달 스킬 MMSkills

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

시각 에이전트의 의사결정은 시각 증거와 상태 정보를 함께 해석해야 한다. 텍스트 중심의 스킬은 시각 상태를 충분히 반영하지 못하는 반면, MMSkills는 텍스트 프로시저를 런타임 state cards와 다중 뷰(keyframes)로 결합해 재사용 가능한 지식으로 만든다.

왜 중요한가

시각 에이전트의 의사결정은 시각 증거와 상태 정보를 함께 해석해야 한다. 텍스트 중심의 스킬은 시각 상태를 충분히 반영하지 못하는 반면, MMSkills는 텍스트 프로시저를 런타임 state cards와 다중 뷰(keyframes)로 결합해 재사용 가능한 지식으로 만든다.

핵심 기여

Multimodal Skill Package 제안

상태 조건부 텍스트 프로시저 D, 런타임 상태 카드 S, 다중 뷰 키프레임 K를 결합한 재사용 가능한 모듈로 시각 의사결정을 지원한다.

Trajectory-to-Skill Generator 개발

공개 비평/비 평가(non-evaluation) 트래젝토리를 입력으로 받아 워크플로 그룹화, 프로시저 유도, 중복 제거, 시각적 근거 바탕 grounding, 메타-스킬 감사로 MMSkills를 생성한다.

Branch-Loaded Multimodal Skill Agent 도입

런타임에 임시 브랜치를 열어 live 화면과 정합된 상태 카드/뷰를 선택하고, 구조화된 지침을 반환하여 메인 에이전트의 의사결정을 돕는다.

GUI 및 게임 벤치마크에서의 성능 향상

OSWorld, macOSWorld, VAB-Minecraft, Super Mario Bros 등 다수 벤치마크에서 MMSkills가 텍스트 기반 스킬 및 미사용 대비 성능 향상을 보인다.

핵심 아이디어 이해하기

단락1: 텍스트 기반 스킬은 시각 상태 인식이 필요한 멀티모달 환경에서 불완전하다. 시각 증거를 적절히 인용하고 상태 의존적 의사결정을 가능하게 해야 한다. 단락2: MMSkills의 핵심 구성은 D(텍스트 프로시저), S(런타임 상태 카드), K(다중 뷰 키프레임)로 이루어지며, 각 구성 요소는 실행 규칙과 시각 증거를 연결한다. 단락3: 외부 시각 절차 지식을 활용해 모델 내부 priors를 보완할 수 있으며, 도메인 일반화 및 재사용성이 향상된다.

방법론

전체 접근 방식은 3단계다. 1) MMSkill 패키지 D, S, K를 상태-조건으로 묶는 포맷으로 정의한다. 2) 공개 트래젝토리에서 MMSkills를 자동으로 생성하는 5단계 파이프라인(Embedding+클러스터링, 클러스터별 계획, 머지, 텍스트 초안 작성, 이미지 그라운딩 및 감사)으로 구성된 Generator를 사용한다. 3) 런타임에서 Branch-Loaded 프로세스를 사용해 Stage 1의 뷰 선택과 Stage 2의 계획 수립을 거쳐 Gt를 반환하고, 메인 트래jektory는 실제 LIVE observations에 grounding된 행동을 수행한다.

주요 결과

RQ1: GUI 및 게임 태스크에서 MMSkills가 모델 간 성능 향상을 보였다. OSWorld에서 Gemini 3.1 Pro는 MMSkills 도입 전후로 44.08%→50.11%로 6.03pp 상승, Qwen3-VL-235B는 21.34%→39.17%로 17.83pp 상승 등으로 나타났다. macOSWorld에서도 대형 모델에서 개선이 관측되었고, VAB-Minecraft는 모든 모델에서 성공률 및 평균 점수가 증가했다. RQ2: 상태 카드 및 이미지(키프레임)의 ablation에서 State Cards와 Images 모두 기여하며, 두-stage Branch Loading(Stage 1 뷰 선택 + Stage 2 플래너) 구성이 최적이었다. RQ3: MMSkills가 텍스트 스킬보다 더 자주 호출되었고, 호출당 평균 단계 수를 줄이며 경로를 단축했다. 예를 들어 OSWorld에서 Qwen3-VL-235B의 Invoked 비율은 MMSkills 65.28%로 증가했다. RQ4: 행동 패턴 측면에서 MMSkills 도입 시 클릭 비율 감소, DONE 증가 등 행동의 수렴 및 완성도 향상을 보였다. Casey 사례 연구에서 LibreOffice Calc 및 Terminal 시나리오에서 브랜치 로딩이 실제 작업 흐름에서 효과적으로 작동함을 확인했다.

한계점

주요 한계점은 source-trajectory 커버리지 의존성, 스킬 생성 또는 시각 grounding의 오류 가능성, 그리고 브랜치 로딩으로 인한 추가 추론 비용이다. embodied/안전-critical 환경으로의 확장은 강화된 검증 및 온라인 스킬 수리(Human-in-the-loop) 필요하다.

실무 활용

MMSkills는 시각 에이전트에 외부의 다중모달 프로시저 지식을 제공하는 모듈로, 런타임 시점에 필요한 증거를 선택하고 간단한 지침으로 축약하여 주 의사결정을 돕는다.

데스크탑 GUI 자동화
게임 기반 비주얼 에이전트의 일반화 향상
대화형 도구 자동화
소프트웨어 자동화 파이프라인 보강

코드 공개 여부: 공개

코드 저장소 보기

키워드

multimodal procedural knowledgevisual agentsstate-conditionedbranch-loadedOSWorldVisualAgentBenchGUI benchmarksgame-based benchmarks