핵심 요약
기존 멀티모달 에이전트는 내부 지식으로 충분히 해결 가능한 문제도 외부 도구에 의존하는 '맹목적 도구 호출' 문제를 겪어 지연 시간과 노이즈가 발생했다. 이 논문은 정확도와 효율성을 독립적으로 최적화하는 HDPO 프레임워크를 통해 성능 저하 없이 도구 사용 효율을 극대화하는 새로운 학습 패러다임을 제시한다.
왜 중요한가
기존 멀티모달 에이전트는 내부 지식으로 충분히 해결 가능한 문제도 외부 도구에 의존하는 '맹목적 도구 호출' 문제를 겪어 지연 시간과 노이즈가 발생했다. 이 논문은 정확도와 효율성을 독립적으로 최적화하는 HDPO 프레임워크를 통해 성능 저하 없이 도구 사용 효율을 극대화하는 새로운 학습 패러다임을 제시한다.
핵심 기여
맹목적 도구 호출 문제 정의 및 수학적 분석
멀티모달 에이전트가 시각적 문맥만으로 해결 가능한 쿼리에도 습관적으로 도구를 실행하는 병리적 현상을 식별하고, 기존의 스칼라 보상 방식이 왜 도구 효율성 신호를 상쇄시키는지 수학적으로 증명했다.
HDPO(Hierarchical Decoupled Policy Optimization) 프레임워크
정확도 채널과 효율성 채널을 분리하여 최적화하는 새로운 RL 프레임워크를 제안했다. 조건부 어드밴티지 추정 메커니즘을 도입해 정확한 궤적 내에서만 도구 절약을 유도함으로써 학습 안정성을 확보했다.
메타 인지적 데이터 큐레이션 파이프라인
환각된 환경 역학을 제거하고 실제 도구 필요성을 격리하며 다차원적 메타 인지 필터링을 수행하는 3단계 데이터 정제 프로세스를 구축하여 고품질 학습 데이터를 확보했다.
전략적 에이전트 Metis 개발
HDPO로 학습된 Metis 모델은 다양한 벤치마크에서 기존 에이전트 대비 도구 호출 횟수를 90% 이상 줄이면서도 추론 정확도는 오히려 향상시키는 SOTA 성능을 달성했다.
핵심 아이디어 이해하기
기존 에이전트 학습은 정확도 보상과 도구 사용에 대한 페널티(효율성 보상)를 하나의 숫자로 더해 최적화하는 Gradient Descent 방식을 사용한다. 하지만 정확도 보상의 변동성이 효율성 페널티보다 훨씬 크기 때문에, 도구를 적게 쓰라는 신호가 정확도를 높이려는 신호에 묻혀버리는 '신호 희석' 현상이 발생한다. 결과적으로 모델은 도구를 무분별하게 사용하더라도 정답만 맞히면 된다는 식으로 학습된다.
HDPO는 이 두 목표를 완전히 분리하여 해결한다. 먼저 모델이 정답을 맞히는 법을 배우게 하고(정확도 채널), 정답을 맞힌 경우들 사이에서만 누가 더 도구를 적게 썼는지 비교하여 보상을 준다(효율성 채널). 이는 마치 학생에게 먼저 문제를 풀 수 있게 가르친 뒤, 문제를 풀 수 있게 된 학생들에게만 더 빠른 풀이법을 찾도록 장려하는 것과 같은 원리이다.
이러한 구조는 자연스러운 '인지 커리큘럼'을 형성한다. 학습 초기에는 정답을 맞히는 것조차 어려우므로 정확도 최적화가 주를 이루고, 모델이 똑똑해질수록 효율성 보상이 활성화되어 스스로의 능력을 믿고 도구 사용을 자제하는 메타 인지 능력을 갖추게 된다.
관련 Figure

모델이 단순히 도구를 실행하는 법을 아는 것을 넘어, 언제 어떤 도구가 필요한지 혹은 도구 없이 직접 답변이 가능한지를 판단하는 메타 인지적 능력을 보여준다.
Metis가 시각적 질문에 대해 코드 실행, 이미지 검색, 텍스트 검색 도구를 전략적으로 선택하여 사용하는 예시
방법론
HDPO는 두 개의 독립적인 최적화 채널을 유지한다. 정확도 채널은 최종 응답의 품질을 평가하며, binary 점수인 R_ans와 포맷 준수 보너스 R_fmt를 결합하여 R_acc를 산출한다. [R_ans, R_fmt 입력 → 가중 합산 → R_acc 출력 → 전체 롤아웃에 대한 GRPO 어드밴티지 계산] 과정을 거쳐 작업 정확도를 극대화한다.
효율성 채널은 도구 호출 횟수 T_i에 반비례하는 보상 R_tool을 정의한다. [T_i 입력 → 1/(T_i + 1) 연산 → R_tool 출력 → 도구 절약 정도 수치화]를 수행하되, 이 보상은 반드시 정답을 맞힌 궤적(R_ans > 0)에 대해서만 부여된다. 오답인 경우 도구를 아무리 적게 써도 보상을 주지 않아 모델이 효율성을 위해 정확도를 포기하는 현상을 방지한다.
최종 손실 함수 L_HDPO는 두 채널의 대리 손실(surrogate loss)을 선형 결합하여 계산된다. [정확도 어드밴티지와 효율성 어드밴티지 입력 → 각각의 PPO 스타일 클립 손실 계산 → 가중치 w_acc, w_tool 적용 후 합산 → 최종 Loss 출력] 이 방식은 두 목표 간의 그래디언트 간섭을 제거하고 안정적인 다중 목표 최적화를 가능하게 한다.
관련 Figure

기존 방식은 정확도와 효율성 보상을 하나로 묶어 처리하여 신호 간섭이 발생하지만, HDPO는 이를 독립된 채널로 분리하여 최종 손실 단계에서만 결합함을 보여준다. 이 구조가 도구 사용 효율성을 정확도 희생 없이 개선할 수 있는 핵심 원리임을 시각화한다.
기존의 결합 보상 방식(Coupled-Reward)과 제안된 HDPO(Hierarchical Decoupled) 방식의 최적화 구조 비교도
주요 결과
Metis는 VBench, HRBench 등 고해상도 시각 인식 벤치마크에서 기존 에이전트들을 압도했다. 특히 HRBench(8K)에서 82.0%의 정확도를 기록하며 30B 파라미터 모델인 Skywork-R1V4(79.8%)보다 우수한 성능을 보였다. 도구 사용 효율성 측면에서는 VBench 기준 기존 모델들이 90% 이상의 도구 호출률을 보인 반면, Metis는 단 2%의 호출률만으로도 더 높은 정확도를 달성했다.
수학 및 논리 추론 벤치마크인 WeMath에서도 Metis는 65.2%를 기록하여 베이스 모델인 Qwen3-VL-8B-Instruct(38.8%) 대비 +26.4%라는 비약적인 향상을 보였다. 이는 HDPO가 복잡한 계산이 필요한 시점에만 전략적으로 Python 코드 실행 도구를 호출하도록 유도했기 때문임이 Ablation study를 통해 확인됐다.
관련 Figure

Metis가 기존 모델들(DeepEyes, Thyme 등)에 비해 압도적으로 낮은 도구 사용률을 기록하면서도 가장 높은 정확도를 달성했음을 입증한다. 이는 도구를 많이 쓰는 것이 성능 향상으로 직결되지 않는다는 논문의 핵심 주장을 뒷받침한다.
다양한 모델들의 도구 사용률(막대 그래프)과 작업 정확도(꺾은선 그래프) 비교 차트
기술 상세
HDPO의 핵심은 조건부 어드밴티지 추정(Conditional Advantage Estimation)이다. 효율성 어드밴티지 A_tool은 정답을 맞힌 궤적들의 집합 Q 내에서만 계산되므로, 오답 궤적의 낮은 R_tool 값이 평균을 낮추어 정답 궤적의 어드밴티지를 비정상적으로 높이는 현상을 차단한다. 이는 수학적으로 그래디언트의 분산을 줄이고 효율성 신호의 SNR(신호 대 잡음비)을 높이는 효과를 준다.
데이터 큐레이션에서는 '제로샷 가해성(Zero-shot Solvability)' 개념을 도입했다. 베이스 모델이 도구 없이도 직접 추론으로 풀 수 있는 문제는 SFT 데이터셋에서 공격적으로 제거하여, 모델이 도구 사용을 '최후의 수단'으로 인식하도록 학습 데이터를 구성했다. 또한 Gemini-3.1-Pro를 판독관으로 활용하여 도구 사용의 논리적 타당성을 다차원적으로 평가하는 메타 인지 필터링을 적용했다.
한계점
본 연구는 주로 단기적인 도구 사용 시나리오에 집중하고 있으며, 매우 긴 호흡의 작업(long-horizon tasks)이나 더 개방적인 환경에서의 메타 인지적 확장에 대해서는 향후 연구 과제로 남겨두고 있다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.