핵심 요약
사용자가 이미지를 업로드하면 구글 렌즈는 '쿼리 팬아웃(Query Fan-Out)'이라는 기술적 방식을 통해 시각적 쿼리를 처리한다. 제미나이(Gemini) 모델이 이미지 전체를 분석하여 모자, 재킷, 신발 등 포함된 개별 아이템을 식별한 뒤, 각 객체에 대해 병렬적으로 렌즈 검색을 수행한다. 검색된 결과는 쇼핑 링크 및 문맥 정보와 함께 하나의 응답으로 통합되어 사용자에게 제공된다. 이는 제미나이가 추론을 담당하고 렌즈가 수십억 개의 인덱싱된 이미지를 검색하는 백엔드 역할을 수행하는 멀티모달 오케스트레이션의 전형적인 사례이다.
배경
멀티모달 AI의 기본 개념, 검색 엔진의 인덱싱 및 검색 원리
대상 독자
멀티모달 AI 시스템 설계자 및 검색 엔진 개발자
의미 / 영향
구글은 강력한 인프라와 데이터를 결합하여 AI 검색 시장에서의 우위를 공고히 하고 있다. 특히 쇼핑과 같은 특정 도메인에서의 데이터 통합은 신규 경쟁자들이 단기간에 따라잡기 어려운 강력한 해자로 작용한다.
섹션별 상세
구글은 검색의 AI 모드에서 시각적 쿼리를 처리하기 위해 '쿼리 팬아웃(Query Fan-Out)' 방식을 도입했다. 사용자가 의상 사진과 같은 이미지를 업로드하면, 제미나이 모델이 프레임 전체를 분석하여 모자, 재킷, 신발 등 포함된 개별 아이템을 각각 식별한다.
식별된 각 객체에 대해 시스템은 개별적인 렌즈 검색을 동시에 병렬로 실행한다. 이 과정에서 제미나이는 이미지의 맥락을 파악하는 추론 계층(Reasoning Layer)으로 작동하며, 렌즈는 수십억 개의 인덱싱된 이미지 데이터베이스에서 정보를 찾아오는 검색 백엔드(Retrieval Backend) 역할을 수행한다.
병렬 검색을 통해 얻은 결과들은 쇼핑 링크 및 관련 문맥 정보와 함께 하나의 일관된 응답으로 합성된다. 이러한 방식은 퍼플렉시티(Perplexity)나 오픈AI(OpenAI)의 시각적 검색 서비스와 차별화되는 지점으로, 구글이 지난 10년간 축적한 렌즈 학습 데이터와 쇼핑 그래프(Shopping Graph) 통합 역량을 기반으로 한다.
실무 Takeaway
- 멀티모달 시스템 설계 시 추론 모델(Gemini)과 전문 검색 엔진(Lens)을 분리하여 오케스트레이션하는 구조가 효율적이다.
- 복합적인 이미지 쿼리를 단일 검색이 아닌 병렬 검색(Fan-out)으로 처리함으로써 검색의 정확도와 사용자 경험을 동시에 개선할 수 있다.
- AI 검색 경쟁에서 모델 성능뿐만 아니라 장기간 축적된 도메인 특화 데이터(Shopping Graph)와 인덱싱 인프라가 핵심적인 진입 장벽이 된다.
AI 분석 전체 내용 보기
AI 요약 · 북마크 · 개인 피드 설정 — 무료