TL;DR
오픈 월드에서의 시각 인식은 이미지 자체의 단서만으로 타깃을 식별하는 데 한계가 있다. 본 논문은 외부 지식을 탐색하고 다중 홉 추론을 통해 숨겨진 타깃 정체를 해석한 뒤, 이를 시각 인스턴스에 grounding하는 Perception Deep Research 프레임을 제안한다. WebEyes 벤치마크와 Pixel-Searcher를 통해 외부 증거를 시각 출력으로 연결하는 엔드-투-엔드 흐름의 유효성을 입증한다.
왜 중요한가
오픈 월드에서의 시각 인식은 이미지 자체의 단서만으로 타깃을 식별하는 데 한계가 있다. 본 논문은 외부 지식을 탐색하고 다중 홉 추론을 통해 숨겨진 타깃 정체를 해석한 뒤, 이를 시각 인스턴스에 grounding하는 Perception Deep Research 프레임을 제안한다. WebEyes 벤치마크와 Pixel-Searcher를 통해 외부 증거를 시각 출력으로 연결하는 엔드-투-엔드 흐름의 유효성을 입증한다.
핵심 기여
Perception Deep Research의 정의 및 WebEyes 벤치마크 구축
이미지 내에 직접 나타나지 않는 타깃을 외부 증거로 해석하고, 박스/마스크/정답으로 grounding하는 프레임을 제시한다.
WebEyes 벤치마크 구축
120 이미지, 473 객체 인스턴스, 645 고유 QA 페어, 1,927 샘플로 구성되며, 지식집약적 쿼리와 외부 증거를 기반으로 하는 Grounding/Segmentation/VQA의 3 태스크 뷰를 제공한다.
Pixel-Searcher 제안
에이전트형 검색-픽셀 워크플로우로 외부 증거를 수집·정리하고, 해석된 타깃을 시각 인스턴스에 grounding하며, 세 가지 태스크 뷰를 지원한다.
실험 및 실패 분석
오픈소스 모델 기반에서 외부 증거에 의한 grounding의 이점과 증거 획득, 정체성 해석, 시각 인스턴스 바인딩에서의 주요 병목을 분석한다.
실무 활용
외부 지식에 의한 ground-ing을 통해 실제 어플리케이션에서 open-world 시각 인식의 신뢰도와 유연성을 높일 수 있다. 증거 기반 접근은 바운더리 및 컨텍스트 제약이 있는 시나리오에서 효과적이다.
- 지식 기반 VQA 시스템에서 외부 증거를 활용한 대상 식별 및 grounding
- 멀티모달 검색 파이프라인에서 외부 정보로 정답/설명을 보강
- 로봇 비전 시스템에서 최신 이벤트나 브랜드 정보를 반영한 물체 인식
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.