핵심 요약
텍스트와 이미지 검색은 서로 보완적인 관계에 있으며, 두 점수를 결합한 멀티모달 하이브리드 검색이 단일 모달리티보다 뛰어난 성능(Recall@20 기준 95%)을 제공한다.
배경
PDF 문서 검색(RAG) 시스템 구축 시 텍스트 추출(OCR) 방식과 페이지 이미지 임베딩 방식 중 어느 것이 더 효과적인지에 대한 논의가 활발하다.
대상 독자
RAG 시스템을 구축하는 개발자, 정보 검색 연구자, AI 엔지니어
의미 / 영향
RAG 시스템 설계 시 복잡한 OCR 파이프라인 대신 이미지 임베딩을 고려할 수 있는 실질적인 근거를 제공한다. 특히 표나 그림이 많은 전문 문서 검색에서 멀티모달 하이브리드 방식이 표준 아키텍처로 자리 잡을 가능성이 높으며, 이는 검색 정확도 향상과 파이프라인 단순화에 기여할 것이다.
챕터별 상세
시각적 문서 처리의 부상
기존 방식은 PDF에서 텍스트를 추출(OCR)한 뒤 임베딩하지만, 시각적 방식은 페이지 전체를 하나의 이미지로 보고 처리한다.
IRPAPERS 데이터셋 소개
데이터 밀도가 높다는 것은 서로 유사한 내용의 문서가 많아 검색 시스템이 정답을 찾아내기 더 어렵다는 의미이다.
6가지 검색 전략 비교
Late Interaction은 쿼리 토큰과 문서 패치 간의 세밀한 비교를 가능하게 하여 검색 정확도를 높이는 기법이다.
벤치마크 결과 분석
Recall@K는 상위 K개의 결과 안에 정답이 포함될 확률을 의미하는 지표이다.
텍스트와 이미지의 상호 보완성
두 방식이 서로 다른 유형의 질문에서 실패하기 때문에, 이를 결합하면 각자의 약점을 보완할 수 있다.
실무 Takeaway
- 텍스트와 이미지 검색은 실패하는 쿼리 유형이 다르므로 두 방식을 결합하는 멀티모달 하이브리드 전략이 가장 효과적이다.
- 정확한 키워드 매칭이 필요한 경우 BM25와 벡터 검색을 결합한 하이브리드 텍스트 검색이 단일 벡터 검색보다 우수하다.
- 이미지 기반 검색은 검색 결과의 상위권(Top-20)에 정답을 포함시키는 능력(Recall)이 텍스트보다 뛰어난 경향을 보인다.
언급된 리소스
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.