웹에서 픽셀로: 시각 인식에 에이전트적 검색 도입

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

오픈 월드에서의 시각 인식은 이미지 자체의 단서만으로 타깃을 식별하는 데 한계가 있다. 본 논문은 외부 지식을 탐색하고 다중 홉 추론을 통해 숨겨진 타깃 정체를 해석한 뒤, 이를 시각 인스턴스에 grounding하는 Perception Deep Research 프레임을 제안한다. WebEyes 벤치마크와 Pixel-Searcher를 통해 외부 증거를 시각 출력으로 연결하는 엔드-투-엔드 흐름의 유효성을 입증한다.

왜 중요한가

오픈 월드에서의 시각 인식은 이미지 자체의 단서만으로 타깃을 식별하는 데 한계가 있다. 본 논문은 외부 지식을 탐색하고 다중 홉 추론을 통해 숨겨진 타깃 정체를 해석한 뒤, 이를 시각 인스턴스에 grounding하는 Perception Deep Research 프레임을 제안한다. WebEyes 벤치마크와 Pixel-Searcher를 통해 외부 증거를 시각 출력으로 연결하는 엔드-투-엔드 흐름의 유효성을 입증한다.

핵심 기여

Perception Deep Research의 정의 및 WebEyes 벤치마크 구축

이미지 내에 직접 나타나지 않는 타깃을 외부 증거로 해석하고, 박스/마스크/정답으로 grounding하는 프레임을 제시한다.

WebEyes 벤치마크 구축

120 이미지, 473 객체 인스턴스, 645 고유 QA 페어, 1,927 샘플로 구성되며, 지식집약적 쿼리와 외부 증거를 기반으로 하는 Grounding/Segmentation/VQA의 3 태스크 뷰를 제공한다.

Pixel-Searcher 제안

에이전트형 검색-픽셀 워크플로우로 외부 증거를 수집·정리하고, 해석된 타깃을 시각 인스턴스에 grounding하며, 세 가지 태스크 뷰를 지원한다.

실험 및 실패 분석

오픈소스 모델 기반에서 외부 증거에 의한 grounding의 이점과 증거 획득, 정체성 해석, 시각 인스턴스 바인딩에서의 주요 병목을 분석한다.

실무 활용

외부 지식에 의한 ground-ing을 통해 실제 어플리케이션에서 open-world 시각 인식의 신뢰도와 유연성을 높일 수 있다. 증거 기반 접근은 바운더리 및 컨텍스트 제약이 있는 시나리오에서 효과적이다.

지식 기반 VQA 시스템에서 외부 증거를 활용한 대상 식별 및 grounding
멀티모달 검색 파이프라인에서 외부 정보로 정답/설명을 보강
로봇 비전 시스템에서 최신 이벤트나 브랜드 정보를 반영한 물체 인식

코드 공개 여부: 공개

코드 저장소 보기

키워드

Perception Deep ResearchWebEyesPixel-Searcherknowledge-intensivegroundingopen-worldmultimodal