HyperEyes: 병렬 멀티모달 검색 에이전트를 위한 이중 입도 효율성 인식 강화학습

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존 멀티모달 검색 에이전트는 여러 대상을 찾을 때 하나씩 순차적으로 검색하여 시간이 오래 걸리고 불필요한 비용이 발생했다. 이 논문은 여러 대상을 한 번에 병렬로 검색하는 기법과 효율성을 극대화하는 강화학습 프레임워크를 통해 검색 속도와 정확도를 동시에 획기적으로 개선했다.

왜 중요한가

기존 멀티모달 검색 에이전트는 여러 대상을 찾을 때 하나씩 순차적으로 검색하여 시간이 오래 걸리고 불필요한 비용이 발생했다. 이 논문은 여러 대상을 한 번에 병렬로 검색하는 기법과 효율성을 극대화하는 강화학습 프레임워크를 통해 검색 속도와 정확도를 동시에 획기적으로 개선했다.

관련 Figure

#1Diagram
기존 에이전트가 여러 엔티티를 처리하기 위해 여러 번의 도구 호출 턴을 거치며 노이즈가 쌓이는 반면, HyperEyes는 단 한 번의 턴에서 다중 엔티티를 접지하고 병렬 검색하여 효율성을 높임을 보여준다. 하단의 차트는 HyperEyes가 모든 벤치마크에서 가장 적은 도구 호출 횟수를 기록함을 입증한다.
기존 순차적 검색 에이전트와 HyperEyes의 병렬 검색 방식 비교 다이어그램

핵심 기여

Unified Grounded Search (UGS) 액션 스페이스

시각적 접지와 검색을 하나의 원자적 동작으로 통합하여, 단일 턴 내에서 이미지 속 여러 엔티티에 대한 병렬 검색을 가능하게 함으로써 추론 효율성을 극대화했다.

TRACE: 궤적 수준의 적응형 비용 효율성 보상

훈련 과정에서 참조 궤적의 길이를 점진적으로 단축하여, 모델이 정답을 맞히면서도 최소한의 도구 호출만 사용하도록 유도하는 동적 보상 메커니즘을 도입했다.

실패 궤적에 대한 온폴리시 증류 (OPD)

희소한 결과 보상의 한계를 극복하기 위해, 실패한 시도에 대해 교사 모델로부터 토큰 단위의 밀집된 교정 신호를 주입하여 신용 할당 문제를 해결했다.

IMEB: 이미지 다중 엔티티 벤치마크 구축

정확도뿐만 아니라 검색 효율성을 동시에 평가할 수 있도록 설계된 300개의 고난도 다중 엔티티 시각 검색 인스턴스를 포함하는 신규 벤치마크를 제안했다.

핵심 아이디어 이해하기

기존의 멀티모달 에이전트는 이미지에서 대상을 자르고(Crop) 검색하는 과정을 순차적으로 반복한다. 이는 Transformer 아키텍처에서 컨텍스트 길이를 불필요하게 늘리고, 이전 단계의 오류가 다음 단계로 전이되는 문제를 야기한다. HyperEyes는 '더 길게 검색하지 말고 더 넓게 검색하라'는 원칙 하에, 한 번의 추론 턴에서 여러 개의 바운딩 박스와 검색 쿼리를 동시에 생성하도록 설계됐다.

이를 위해 강화학습의 보상 함수를 두 가지 층위로 설계했다. 먼저 궤적 수준에서는 TRACE라는 지표를 사용한다. 이는 모델이 성공한 궤적 중 가장 짧은 것을 기준으로 보상 기준선을 계속 높여나가는 방식이다. 예를 들어, 5번의 검색으로 성공하던 모델이 3번 만에 성공하면, 이후에는 3번 이하로 성공해야만 양의 보상을 받게 된다. 이는 모델이 불필요한 도구 호출을 스스로 억제하도록 강제한다.

또한, 토큰 수준에서는 실패한 시도에서 배울 수 있도록 OPD 기법을 적용했다. 에이전트가 검색에 실패했을 때 단순히 '실패'라는 점수만 주는 것이 아니라, 더 똑똑한 교사 모델이 '이 대목에서는 이런 검색어를 썼어야 했다'는 것을 토큰 단위로 알려준다. 결과적으로 HyperEyes는 검색 횟수를 획기적으로 줄이면서도 정보 밀도가 높은 효율적인 검색 경로를 학습하게 된다.

방법론

HyperEyes의 학습은 2단계로 구성된다. 1단계는 Parallel-Amenable 데이터 합성 파이프라인을 통한 SFT(Supervised Fine-tuning)이다. 모자이크 증강 기법을 사용하여 여러 객체가 포함된 이미지를 생성하고, 각 객체를 동시에 검색해야만 풀 수 있는 QA 쌍 2만 개를 합성했다. 이후 Progressive Rejection Sampling을 통해 가장 짧고 성공적인 경로만 남겨 효율적인 초기 정책을 수립했다.

2단계는 Dual-Grained Efficiency-Aware 강화학습이다. 거시적 관점에서는 TRACE 보상을 적용한다. [현재 궤적의 도구 호출 횟수 tc와 총 호출 수 ts를 입력으로] → [동적으로 갱신되는 참조 값 t_c, t_s와 비교 연산을 수행해] → [참조 값보다 작거나 같을 때만 양의 보상을 부여하고] → [모델이 최소 비용 경로를 찾도록 유도한다]. 미시적 관점에서는 OPD를 통해 [실패한 궤적의 토큰들을 입력으로] → [교사 모델과의 역 KL 발산(Reverse KL Divergence)을 계산해] → [교사 모델의 확률 분포를 따르도록 가중치를 갱신하고] → [복잡한 계획 단계에서의 오류를 세밀하게 교정한다].

관련 Figure

#2Diagram
1단계의 병렬 QA 합성 및 PRS(Progressive Rejection Sampling) 과정과 2단계의 TRACE 및 OPD 기반 강화학습 구조를 상세히 나타낸다. 특히 실패한 궤적에 대해서만 교사 모델의 보상을 적용하는 OPD 메커니즘이 시각화되어 있다.
HyperEyes의 2단계 학습 프레임워크(SFT 및 RL) 개요도

주요 결과

HyperEyes-30B 모델은 6개의 주요 벤치마크에서 기존 SOTA 오픈소스 에이전트인 VDR 대비 정확도는 9.9% 높이면서 도구 호출 횟수는 평균 5.3배 적게 사용하는 압도적인 성능을 기록했다. 특히 복잡한 다중 엔티티 검색을 평가하는 IMEB 벤치마크에서 기존 모델들이 순차적 검색으로 인해 높은 지연시간과 노이즈 축적 문제를 겪는 것과 달리, HyperEyes는 병렬 검색을 통해 효율적으로 정답에 도달했다.

Ablation Study 결과, 단순한 결과 보상(Outcome Reward)만 사용했을 때는 도구 호출 횟수가 6.8회로 치솟았으나, TRACE 보상을 도입하자 1.6회로 급감하며 정확도는 오히려 상승했다. 또한 교사 모델을 통한 OPD 증류가 실패 궤적에서의 학습 효율을 높여 전체적인 성능 향상에 기여했음이 확인됐다.

관련 Figure

#3Chart
IMEB가 스포츠, 인문학, 과학 등 다양한 도메인을 포괄하며, 인스턴스당 평균 4.6개의 엔티티를 포함하고 있어 병렬 검색 능력을 평가하기에 적합한 난이도를 갖추고 있음을 보여준다.
신규 벤치마크 IMEB의 도메인 분포 및 엔티티 통계

기술 상세

HyperEyes는 Qwen3-VL-30B 및 235B를 백본으로 하며, Unified Grounded Search(UGS)라는 확장된 액션 스페이스를 사용한다. UGS는 기존의 텍스트 기반 도구 호출 형식을 확장하여 area 파라미터에 여러 개의 정규화된 좌표 리스트를 수용할 수 있도록 설계됐다. 이를 통해 모델은 단일 image_search 호출로 이미지 내의 다수 영역에 대한 시각적 질의를 병렬로 처리할 수 있다.

강화학습 알고리즘으로는 GRPO(Group Relative Policy Optimization)를 기반으로 TRACE와 OPD를 결합한 형태를 취한다. TRACE 보상은 매 에포크마다 성공한 궤적들의 최소 비용을 추적하여 참조 값 t_hat_c를 단조 감소(Monotonically tightening)시킨다. 이는 모델이 현재 정책으로 도달 가능한 최적의 효율성 지점을 향해 끊임없이 탐색하도록 만드는 암시적 커리큘럼 역할을 한다. OPD는 실패한 궤적에 대해서만 KL 발산 손실을 계산하여, 성공적인 병렬 검색 패턴은 유지하면서 추론 오류만 선택적으로 교정한다.

한계점

On-Policy Distillation을 위해 동일 계열의 더 강력한 교사 모델(예: 235B 모델)이 필수적이어서 학습 자원 요구량이 높다. 또한 현재 프레임워크는 정적인 이미지와 텍스트 환경에 최적화되어 있어, 비디오나 오디오와 같은 동적 멀티모달리티에 필요한 시공간적 접지 메커니즘은 아직 포함되지 않았다.

실무 활용

실시간 정보 확인이 필요한 멀티모달 비서나 복잡한 시각 정보를 분석해야 하는 전문 검색 도구에 즉시 적용 가능하다. 특히 API 호출 비용과 지연시간이 중요한 상용 서비스에서 병렬 검색을 통해 운영 효율을 극대화할 수 있다.

여러 상품이 찍힌 사진에서 각 상품의 최저가를 동시에 검색하는 쇼핑 비서
복잡한 도표나 차트 내의 여러 수치를 실시간 웹 데이터와 대조하여 검증하는 분석 도구
이미지 속 여러 랜드마크나 인물을 한 번에 식별하고 관련 정보를 취합하는 여행/정보 가이드

코드 공개 여부: 공개

코드 저장소 보기

관련 Figure

#5Screenshot
6명의 인물을 식별해야 하는 문제에서 기존 모델은 12라운드 동안 순차적으로 접근하다 실패하지만, HyperEyes는 단 1라운드 만에 모든 인물을 병렬로 접지하고 3라운드 만에 정확한 정답에 도달하는 과정을 극명하게 대조한다.
DeepEyes-V2와 HyperEyes의 실제 추론 과정 비교 케이스 스터디

키워드

Multimodal Agent(멀티모달 에이전트)Parallel Search(병렬 검색)Reinforcement Learning(강화학습)Inference Efficiency(추론 효율성)Visual Grounding(시각적 접지)

코드 예제

python

# HyperEyes System Prompt (Unified Grounded Search)
# ...
- Image search (region): <tool_call>{"name": "image_search", "arguments": {"image_id": "img_0", "area": [[0.1, 0.2, 0.5, 0.8], ... ]}}</tool_call>
- Text search: <tool_call>{"name": "text_search", "arguments": {"input": ["fun places in Shenzhen", "must-eat food in Shenzhen"]}}</tool_call>

HyperEyes가 여러 영역을 동시에 지정하거나 다중 쿼리를 한 번에 처리하는 Unified Grounded Search 도구 호출 예시

HyperEyes: 병렬 멀티모달 검색 에이전트를 위한 이중 입도 효율성 인식 강화학습

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

코드 예제

HyperEyes: 병렬 멀티모달 검색 에이전트를 위한 이중 입도 효율성 인식 강화학습

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

코드 예제

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드