TL;DR
최고 수준의 멀티모달 검색 에이전트는 학습 데이터와 방법론이 비공개인 경우가 많아 재현이 어려웠다. 이 논문은 고품질 데이터 생성 파이프라인과 강화학습 알고리즘을 모두 공개하여 누구나 강력한 시각 검색 에이전트를 구축할 수 있는 기반을 제공한다.
왜 중요한가
최고 수준의 멀티모달 검색 에이전트는 학습 데이터와 방법론이 비공개인 경우가 많아 재현이 어려웠다. 이 논문은 고품질 데이터 생성 파이프라인과 강화학습 알고리즘을 모두 공개하여 누구나 강력한 시각 검색 에이전트를 구축할 수 있는 기반을 제공한다.
핵심 기여
고품질 멀티모달 데이터 생성 파이프라인
Wikipedia 하이퍼링크 그래프 샘플링, 퍼지 엔티티 재작성, 소스 앵커 시각적 그라운딩을 결합하여 단순 검색 단축키를 방지하고 다단계 추론을 유도하는 데이터를 생성한다.
능동적 지각을 위한 통합 도구 환경
단순 검색을 넘어 OCR, 자르기(Crop), 선명화(Sharpen), 초해상도(Super-Resolution), 원근 교정 등 시각적 전처리를 포함한 도구 세트를 구축하여 불완전한 입력 이미지에 대응한다.
Fatal-Aware GRPO 알고리즘
도구 호출 실패가 연쇄적으로 발생하는 '치명적 상태'를 감지하고, 실패 이후의 토큰은 마스킹하되 실패 전의 유효한 추론은 보존하는 단방향 어드밴티지 클램핑 기법을 도입했다.
관련 Figure

Wikipedia 경로 샘플링부터 퍼지 재작성, 시각적 그라운딩, 그리고 전문가 궤적 합성까지의 전 과정을 보여준다. 이 파이프라인이 어떻게 단순 검색 단축키를 방지하고 복잡한 다단계 추론 데이터를 생성하는지 설명하는 핵심 도식이다.
데이터 큐레이션 파이프라인의 전체 개요도
핵심 아이디어 이해하기
기존의 멀티모달 모델은 이미지가 주어지면 단일 패스로 답을 내놓는 수동적 이해에 머물렀다. 하지만 복잡한 질문을 해결하려면 모델이 스스로 외부 정보를 검색하고, 증거를 검증하며, 여러 단계로 추론하는 '에이전트'로서 동작해야 한다. 이 과정에서 가장 큰 문제는 도구 사용 중 한 번의 실수가 전체 실행 경로를 망가뜨리는 '연쇄 실패' 현상이다.
OpenSearch-VL은 이를 해결하기 위해 강화학습의 보상 계산 방식을 개선했다. 일반적인 GRPO 알고리즘은 전체 경로의 성공 여부로 보상을 주지만, 여기서는 도구 호출이 3회 연속 실패하는 지점을 '치명적(Fatal)' 상태로 정의한다. 이 지점 이후의 잘못된 데이터는 학습에서 제외(마스킹)하고, 실패하기 전까지 수행한 논리적인 추론 단계에는 정적 보상을 부여하여 모델이 부분적인 성공으로부터도 배울 수 있게 한다.
결과적으로 모델은 단순히 정답을 맞히는 법뿐만 아니라, 화질이 낮은 이미지를 만나면 스스로 '선명화' 도구를 먼저 호출해 정보를 명확히 한 뒤 검색을 시작하는 등의 전략적 행동을 학습하게 된다. 이는 딥러닝의 Gradient Descent 과정에서 노이즈가 섞인 실패 데이터를 걸러내고 유의미한 신호만 가중치 갱신에 반영하도록 유도하는 원리이다.
방법론
데이터 구축은 Wikipedia 경로 샘플링을 통해 시작된다. [v0(앵커) → v1(교량) → vh(정답)] 형태의 경로를 추출한 뒤, GPT-4o를 사용해 중간 엔티티 이름을 속성 설명으로 바꾸는 '퍼지 재작성'을 수행한다. 이는 모델이 엔티티 이름만으로 답을 맞히는 편법을 막고 실제 검색 도구를 사용하게 강제한다.
강화학습 단계에서는 Fatal-Aware GRPO를 사용한다. 도구 실행 오류 카운터 n_err를 유지하며, 연속 실패 횟수가 K=3에 도달하면 해당 단계를 fatal step index f_i로 지정한다. [입력: 전체 궤적 τ_i] → [연산: s(t) < f_i 조건에 따른 토큰 마스킹 및 max(r_i, 0) 클램핑] → [출력: 수정된 어드밴티지 A_i] 과정을 거친다. 이는 실패한 궤적이라도 기준치 이상의 성과를 낸 앞부분은 강화하고, 실패 이후의 무의미한 토큰이 그래디언트를 오염시키는 것을 방지하는 의미를 갖는다.
도구 환경은 Tv(시각 도구)와 Ts(검색 도구)로 구성된다. 시각 도구는 OpenCV 기반의 결정론적 연산(Sharpen, PerspectiveCorrect)과 딥러닝 기반 업스케일링(EDSR)을 포함하며, 검색 도구는 Serper와 JINA Reader를 연동하여 웹 페이지 내용을 Markdown으로 정규화해 모델에 전달한다.
관련 Figure

여러 궤적을 샘플링하여 그룹 보상을 계산하는 과정과 연속 오류 발생 시 시퀀스를 절단하는 Fatal-Aware 토큰 마스킹 방식을 시각화했다. 이는 제안된 RL 알고리즘의 동작 원리를 직접적으로 보강한다.
RL 학습 파이프라인 및 Fatal-Aware 마스킹 메커니즘
주요 결과
OpenSearch-VL-30B-A3B 모델은 7개의 지식 집약적 멀티모달 벤치마크에서 평균 61.6점을 기록하며, 기본 모델(47.8점) 대비 13.8점의 대폭적인 성능 향상을 보였다. 특히 MMSearch(+24.5), InfoSeek(+16.2) 등 검색이 필수적인 태스크에서 큰 폭으로 개선되었다.
Ablation Study 결과, 데이터 생성 시 '소스 앵커 그라운딩'을 제거하면 평균 점수가 11.5점 하락하여 시각적 단서를 통한 검색 시작점 설정이 핵심임을 입증했다. 또한 Fatal-Aware GRPO는 일반 GRPO 대비 평균 4.2점 높은 정확도를 기록하며, 실패 궤적에서의 효율적인 학습이 성능에 직결됨을 보여주었다.
관련 Figure

Fatal-aware GRPO가 일반 GRPO나 Hard Mask 방식보다 더 긴 도구 사용 궤적을 유지하면서도 높은 정확도에 도달함을 보여준다. 이는 제안된 방식이 생산적인 탐색을 장려함을 입증한다.
학습 단계별 정확도 및 턴 수 변화 그래프
기술 상세
아키텍처는 Qwen3-VL 시리즈를 기반으로 하며, 에이전트 SFT와 RL의 2단계 학습을 거친다. SFT 단계에서는 36,592개의 고품질 전문가 궤적을 사용해 기본적인 도구 사용 능력을 주입한다. RL 단계에서는 8,000개의 프롬프트를 대상으로 Fatal-Aware GRPO를 적용하며, 보상 함수 r(τ)는 형식 보상(r_fmt), 정확도 보상(r_acc), 쿼리 품질 보상(r_query)의 가중 합으로 구성된다.
구현 측면에서 LlamaFactory를 확장하여 멀티턴 도구 인터리빙 데이터를 처리하며, SGLang 엔진을 통해 비동기적으로 롤아웃을 생성한다. 30B MoE 모델 학습에는 256개의 NVIDIA H20 GPU가 사용되었으며, ZeRO-3 최적화를 통해 대규모 파라미터 업데이트를 수행했다.
한계점
외부 도구 환경(검색 랭킹 변동, 호출 실패 등)의 불안정성이 보상 분산을 높여 학습 불안정성을 초래할 수 있다. 또한 현재 보상 모델은 텍스트 쿼리 품질에 집중되어 있어, Crop과 같은 중간 시각 작업의 적절성을 직접 평가하는 프로세스 보상 모델(PRM)의 도입이 향후 과제로 남아있다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.