시각-네이티브 멀티모달 딥 서치 에이전트를 위한 온정책 데이터 진화

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

멀티모달 깊은 검색 에이전트의 성능은 도구 사용 중 생성되는 시각 증거의 재활용 여부와 학습 데이터 구성 방식에 크게 의존한다. 제안된 Visual-Native Agent Harness는 도구가 반환한 이미지를 이미지 뱅크에서 주소 가능한 참조로 만들어 이후 단계에서 재활용 가능하게 한다. 또한 On-policy Data Evolution(ODE)은 정책 롤아웃에서 얻은 피드백을 바탕으로 학습 데이터 구성을 반복적으로 조정해 데이터와 정책의 학습 프런티어를 맞춘다. 이로써 SFT와 RL 데이터의 품질과 다양성을 높이고, 8B 및 30B 규모에서 평균 점수를 개선한다.

왜 중요한가

멀티모달 깊은 검색 에이전트의 성능은 도구 사용 중 생성되는 시각 증거의 재활용 여부와 학습 데이터 구성 방식에 크게 의존한다. 제안된 Visual-Native Agent Harness는 도구가 반환한 이미지를 이미지 뱅크에서 주소 가능한 참조로 만들어 이후 단계에서 재활용 가능하게 한다. 또한 On-policy Data Evolution(ODE)은 정책 롤아웃에서 얻은 피드백을 바탕으로 학습 데이터 구성을 반복적으로 조정해 데이터와 정책의 학습 프런티어를 맞춘다. 이로써 SFT와 RL 데이터의 품질과 다양성을 높이고, 8B 및 30B 규모에서 평균 점수를 개선한다.

핵심 기여

Visual-Native Agent Harness와 이미지 뱅크 참조 프로토콜

9개 도구를 공유 워크스페이스에서 동작시키고 tool-produced 이미지를 <image:N> 참조로 등록해 이후 단계가 재사용 가능하도록 하는 이미지 뱅크 참조 프로토콜을 도입한다. 이로써 도구 간 시각 증거가trajectory 전체에 걸쳐 누적되고 재활용된다.

On-policy Data Evolution (ODE)

데이터 생성을 정책 롤아웃의 피드백에 맞춰 순환적으로 개선하는 클로즈드 루프 데이터 구성 프레임워크를 제시한다. Forward 단계에서 후보 작업을 생성하고, Rollout으로 평가한 후 rubric 기반 진단으로 Ct를 업데이트한다.

SFT 및 RL 데이터에 대한 정책-지향 데이터 진화

ODE는 grounded하고 도구 활용에 능숙한 SFT 교사-트레이스와 정책의 학습 frontier 근처의 RL 작업을 각각 목표로 하는 데이터 생성을 지원한다.

8B/30B 규모에서의 실험적 검증

Qwen3-VL-8B에서 ODE-RL 도입 시 평균 정확도가 24.9%에서 39.0%로, Qwen3-VL-30B에서 30.6%에서 41.5%로 증가한다(동일한 하네스에서의 비교).

이미지 뱅크 재사용의 효과성 및 정합성

이미지 뱅크를 통한 재사용이 어려운 task에서 특히 효과적이며, 재사용이 많은 벤치마크에서 더 큰 이득이 관찰된다.

핵심 아이디어 이해하기

"멀티모달 딥 서치"에서 흐르는 시각·텍스트 신호는 도구-생성-추론의 연쇄로 연결된다. 기존 접근은 원래 task 이미지에 한정된 시각 추론과 일회성 증거를 다루므로 도구 간 증거 재사용이 불가능하고 학습 데이터는 고정된 레시피에 의존한다. 본 논문은 이미지 뱅크 참조 프로토콜을 통해 도구 호출에서 생성된 중간 이미지를 주소 가능하게 저장하고 재사용하게 함으로써 시각 증거의 누적과 재활용을 가능케 한다. 또한 데이터 진화를 온정책으로 수행하는 ODE를 도입하여 정책의 학습 frontier를 따라 데이터 구성을 순차적으로 조정한다. Forward 단계에서 Seed Proposal, Web Exploration, Graph Organization, Task Curation의 후보 작업을 만들고, Backward 단계에서 Rollout과 Rubric 평가를 통해 Ct를 업데이트한다. 이러한 클로즈드 루프는 SFT의 교육 자료를 다양하고 시각 의존적으로 만들며 RL 데이터는 정책 개선에 보다 구체적으로 기여하는 task를 생성한다. 실험에서 동일한 하네스에서 ODE를 적용하면 벤치마크 전반에서 성능이 향상되고, 이미지-뱅크 재사용의 이득이 확인되며, 데이터 진화가 단순한 합성 데이터보다 더 높은 품질의 teacher-trace를 제공한다.

방법론

시스템 구성과 데이터 진화의 흐름은 그림 1에 요약된다. Visual-Native Agent Harness는 9개의 도구(web search, image search, scholar search, visit, visual search, zoom-in, rotation, flip, python_code)로 구성되며, 초기 시각 맥락 I와 오픈월드 쿼리 q에 대해 T=(q,I,a)로 표현된다. 이미지 뱅크 참조 프로토콜은 모든 시각 context를 image:N 핸들로 저장하고 이후 tool이 이 핸들을 입력으로 사용할 수 있게 한다. On-policy Data Evolution(ODE)은 System Config(고정)와 Evolvable Config Ct(변경 가능)로 구성되며, Ct에는 Seed Proposal, Explorer, Graph Organizer, Curator의 설정이 포함된다. Forward 단계에서 Seed Proposal → Web Exploration → Graph Organization → Task Curation의 순서로 후보 작업을 생성하고, 각 작업 xi의 rollout τi를 런타임에서 실행한 뒤 Compare with reference를 통해 성공 여부를 판단한다. Trace Analysis는 forward generation에서 얻은 기록과 rollout의 결과를 rubric 점수로 매기고, 이를 바탕으로 Ct를 업데이트하는 ∆t를 산출한다. SFT와 RL 모드에서 평가 축은 다르며, SFT는 Teacher Trace의 질과 다양성을 중시하고 RL은 Learning Utility와 Difficulty Match를 중시한다. Round-t에서 얻은 Diagnoses δi는 Seed Proposal, Explorer, Graph Organization, Curator 중 어느 단계에서 문제의 원인이 발생했는지 지적하고, Ct+1의 업데이트에 반영한다. Ct+1으로 다시 forward를 수행하고, 필요 시 Ct+2로 연속 업데이트한다. 비고: 데이터는 11개 도메인, perception/recognition/reasoning 등의 4가지 능력 프로파일, 4단계 난이도 등으로 구성되며, RL 루프에서의 난이도 매칭은 정책의 학습 frontier를 따라가도록 설계된다. 실험은 8B 및 30B 규모(Qwen3-VL 기반)에서 SFT 및 RL 데이터를 각각 생성하고 평가한다. 데이터-생성의 진화가 고정 레시피 대비 SFT/RL에서 더 큰 이득을 준다.

주요 결과

주요 벤치마크에서의 성능 향상 및 ablation 분석이 확인된다. 같은 Visual-Native Agent Harness를 사용할 때 Qwen3-VL-8B의 평균 정확도는 24.9%에서 39.0%로, Qwen3-VL-30B는 30.6%에서 41.5%로 상승한다. 증분 이득은 8B에서 +14.1 포인트, 30B에서 +10.9 포인트에 해당한다. 하네스의 ablation 분석 결과, 풀(harness)을 사용하는 경우 두 도구-이미지 재사용 비율이 높은 벤치마크(MMBC, HLE-VL, MMSearch+)에서 정확도가 각각 +4.9%, +2.9%, +3.2% 증가했다. 반면 이미지 재사용이 없을 때의 성능 저하가 크다. Static Recipe 대 data Evolution 비교에서 SFT는 evolved 데이터로 더 나은 teacher traces를 제공했고, RL 역시 진화된 데이터에서 더 나은 정책 개선 신호를 얻었다. Round t+1의 예시에서는 Round t+1의 더 높은 Reasoning/Perception 예산으로 더 촘촘한 증거 기반의 라인-트레이스가 생성되었고, Round t+1의 RL에서 rubric 점수는 2.60으로 보고되었다. 전체적으로 ODE는 데이터 생성 구성을 정책의 학습 frontier에 맞춰 조정함으로써 SFT/RL 모두에서 성능 향상을 이끈다.

기술 상세

구조적 아키텍처: T=(q,I,a)로 표현되는 오픈 월드 멀티모달 태스크를 9개의 도구로 처리하며, 이미지 뱅크 참조 프로토콜로 모든 초기/도구 반환 이미지를 image:N 핸들로 저장한다. Forward 구동은 Seed Proposal, Web Exploration, Graph Organization, Task Curation의 4단계로 구성되며, Evolvable Config Ct를 통해 매 라운드 Ct→Ct+1로 구성 파라미터를 업데이트한다. Backward 경로는 Task Verification(롤아웃 결과가 참조 정답과 일치하는지 판단), Trace Analysis(Forward 생성 기록, 이미지 뱅크 레퍼런스, 태스크 주석 등을 rubric 점수로 분석), Rubric-Guided Optimization(차등 점수를 기반으로 Ct를 업데이트)로 이루어진다. SFT와 RL 모드에서 rubric의 구성 요소가 다르게 작동한다. Seed Proposal의 예시로 UN 지도(No.4135 Rev.3) 같은 정보-포함 이미지를 선택하고, Explorer는 6개의 노드를 확장하며, Graph Organizer는 노드를 연결하는 멀티모달 증거 그래프를 구성하고, Curator는 증거 그래프로부터 연결된 태스크를 생성한다. 데이터 진화는 11개 도메인, perception+reasoning, difficulty 4단계 등으로 커리티드된다. 라운드의 최종 진단 δi는 각 스테이지에서의 실패 원인을 지목하고 Ct+1에 반영한다. 실험 데이터는 8B/30B에서 SFT 및 RL에 각각 8,855개의 예제와 4,000개의 예제RL 데이터셋으로 구성된다. 데이터 진화의 목표는 시각 의존성, 도구 사용의 질, 차별적 전략 다양성 등을 높여 교사 트레이스를 강화하는 한편, RL 데이터는 학습 frontier에 맞춘 난이도 매칭과 학습 유용성을 높이는 것이다.

실무 활용

이미지-뱅크 재사용과 온정책 기반 데이터 진화가 멀티모달 딥 서치 에이전트의 학습 효율성과 일반화 성능을 개선한다. 동일한 하네스에서 학습 데이터를 정책 피드백에 맞춰 지속적으로 개선하므로, 파생된 teacher-trajectories와 정책-주도적 데이터가 더 잘 맞춰진다.

멀티모달 검색 엔진에서 시각 증거를 반복적으로 재사용하는 데이터 수집 파이프라인 구축
SFT 및 RL 데이터의 품질 및 다양성 향상
도메인 간 일반화 성능을 높이기 위한 루프 기반 데이터 생성
도구 체인(웹 검색, 이미지 검색, 비주얼 변환 등)의 시나리오별 학습 신호 조정

코드 공개 여부: 공개

코드 저장소 보기

키워드

multimodal deep searchtool-use harnessimage bank reference protocolvisual reasoningon-policy data evolutionSFTRLclosed-loop data generatorrollout-feedback evolution