TL;DR
시각 에이전트의 의사결정은 시각 증거와 상태 정보를 함께 해석해야 한다. 텍스트 중심의 스킬은 시각 상태를 충분히 반영하지 못하는 반면, MMSkills는 텍스트 프로시저를 런타임 state cards와 다중 뷰(keyframes)로 결합해 재사용 가능한 지식으로 만든다.
왜 중요한가
시각 에이전트의 의사결정은 시각 증거와 상태 정보를 함께 해석해야 한다. 텍스트 중심의 스킬은 시각 상태를 충분히 반영하지 못하는 반면, MMSkills는 텍스트 프로시저를 런타임 state cards와 다중 뷰(keyframes)로 결합해 재사용 가능한 지식으로 만든다.
핵심 기여
Multimodal Skill Package 제안
상태 조건부 텍스트 프로시저 D, 런타임 상태 카드 S, 다중 뷰 키프레임 K를 결합한 재사용 가능한 모듈로 시각 의사결정을 지원한다.
Trajectory-to-Skill Generator 개발
공개 비평/비 평가(non-evaluation) 트래젝토리를 입력으로 받아 워크플로 그룹화, 프로시저 유도, 중복 제거, 시각적 근거 바탕 grounding, 메타-스킬 감사로 MMSkills를 생성한다.
Branch-Loaded Multimodal Skill Agent 도입
런타임에 임시 브랜치를 열어 live 화면과 정합된 상태 카드/뷰를 선택하고, 구조화된 지침을 반환하여 메인 에이전트의 의사결정을 돕는다.
GUI 및 게임 벤치마크에서의 성능 향상
OSWorld, macOSWorld, VAB-Minecraft, Super Mario Bros 등 다수 벤치마크에서 MMSkills가 텍스트 기반 스킬 및 미사용 대비 성능 향상을 보인다.
핵심 아이디어 이해하기
단락1: 텍스트 기반 스킬은 시각 상태 인식이 필요한 멀티모달 환경에서 불완전하다. 시각 증거를 적절히 인용하고 상태 의존적 의사결정을 가능하게 해야 한다. 단락2: MMSkills의 핵심 구성은 D(텍스트 프로시저), S(런타임 상태 카드), K(다중 뷰 키프레임)로 이루어지며, 각 구성 요소는 실행 규칙과 시각 증거를 연결한다. 단락3: 외부 시각 절차 지식을 활용해 모델 내부 priors를 보완할 수 있으며, 도메인 일반화 및 재사용성이 향상된다.
관련 Figure

핵심 구성요소를 시각화해 MMSkills의 실사용 가능성을 직관적으로 보여준다.
A concrete MMSkills example – 텍스트 프로시저, 런타임 state cards, 다중 뷰 키프레임이 하나의 패키지로 묶인 구성.
방법론
전체 접근 방식은 3단계다. 1) MMSkill 패키지 D, S, K를 상태-조건으로 묶는 포맷으로 정의한다. 2) 공개 트래젝토리에서 MMSkills를 자동으로 생성하는 5단계 파이프라인(Embedding+클러스터링, 클러스터별 계획, 머지, 텍스트 초안 작성, 이미지 그라운딩 및 감사)으로 구성된 Generator를 사용한다. 3) 런타임에서 Branch-Loaded 프로세스를 사용해 Stage 1의 뷰 선택과 Stage 2의 계획 수립을 거쳐 Gt를 반환하고, 메인 트래jektory는 실제 LIVE observations에 grounding된 행동을 수행한다.
관련 Figure

프레임워크의 흐름과 상호작용을 나타내며 방법론의 핵심을 시각화한다.
Figure 2: MMSkills 프레임워크 개요 및 시스템 구성 요소.

Stage 1의 뷰 선택 및 Stage 2의 계획 수립 흐름을 제시한다.
Prompt Surfaces in the Branch-Loaded Multimodal Skill Agent.

브랜치 로딩의 구조적 특징과 실행 흐름을 요약한다.
Branch-Loaded MMSkills 구조 및 런타임 흐름 요약.
주요 결과
RQ1: GUI 및 게임 태스크에서 MMSkills가 모델 간 성능 향상을 보였다. OSWorld에서 Gemini 3.1 Pro는 MMSkills 도입 전후로 44.08%→50.11%로 6.03pp 상승, Qwen3-VL-235B는 21.34%→39.17%로 17.83pp 상승 등으로 나타났다. macOSWorld에서도 대형 모델에서 개선이 관측되었고, VAB-Minecraft는 모든 모델에서 성공률 및 평균 점수가 증가했다. RQ2: 상태 카드 및 이미지(키프레임)의 ablation에서 State Cards와 Images 모두 기여하며, 두-stage Branch Loading(Stage 1 뷰 선택 + Stage 2 플래너) 구성이 최적이었다. RQ3: MMSkills가 텍스트 스킬보다 더 자주 호출되었고, 호출당 평균 단계 수를 줄이며 경로를 단축했다. 예를 들어 OSWorld에서 Qwen3-VL-235B의 Invoked 비율은 MMSkills 65.28%로 증가했다. RQ4: 행동 패턴 측면에서 MMSkills 도입 시 클릭 비율 감소, DONE 증가 등 행동의 수렴 및 완성도 향상을 보였다. Casey 사례 연구에서 LibreOffice Calc 및 Terminal 시나리오에서 브랜치 로딩이 실제 작업 흐름에서 효과적으로 작동함을 확인했다.
관련 Figure

구성 요소별 기여를 비교해 MMSkills의 유효성을 수치로 보여준다.
Ablation results: skill-package components and branch loading.

브랜치 로딩의 실전 적용 사례를 제시한다.
Case studies: LibreOffice Calc 및 Terminal 파일 관리 시나리오.

다른 케이스에서도 MMSkills의 작동 원리를 시각적으로 보여준다.
Case 2: Terminal File Organization와 흐름 요약 화면.
한계점
주요 한계점은 source-trajectory 커버리지 의존성, 스킬 생성 또는 시각 grounding의 오류 가능성, 그리고 브랜치 로딩으로 인한 추가 추론 비용이다. embodied/안전-critical 환경으로의 확장은 강화된 검증 및 온라인 스킬 수리(Human-in-the-loop) 필요하다.
실무 활용
MMSkills는 시각 에이전트에 외부의 다중모달 프로시저 지식을 제공하는 모듈로, 런타임 시점에 필요한 증거를 선택하고 간단한 지침으로 축약하여 주 의사결정을 돕는다.
- 데스크탑 GUI 자동화
- 게임 기반 비주얼 에이전트의 일반화 향상
- 대화형 도구 자동화
- 소프트웨어 자동화 파이프라인 보강
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.