인스타카트의 주간 전단지 디지털화: 컴퓨터 비전과 LLM을 활용한 쇼핑 경험 혁신

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

인스타카트는 기존에 수작업으로 진행하던 주간 전단지 디지털화 과정을 자동화하기 위해 컴퓨터 비전과 LLM을 결합한 2단계 파이프라인을 개발했다. 1단계에서는 Meta의 Segment Anything Model(SAM)을 커스텀 알고리즘과 결합해 제품 영역을 분할하고, 2단계에서는 OCR과 LLM, 검색 인프라를 활용해 해당 제품을 카탈로그와 매칭한다. 이 시스템 도입으로 전단지당 처리 시간이 3-4시간에서 30분 이내로 10배 단축되었으며, 복잡한 레이아웃에서도 높은 정확도를 유지한다. 이를 통해 인스타카트는 수백 개의 소매업체 전단지를 효율적으로 처리하며 사용자에게 인터랙티브한 쇼핑 경험을 제공하고 있다.

배경

Computer Vision 기초, Object Detection 개념, LLM Prompting, Vector Search/ANN

대상 독자

리테일 테크 개발자, 컴퓨터 비전 엔지니어, LLM 파이프라인 설계자

의미 / 영향

정적 콘텐츠의 디지털 전환 비용을 획기적으로 낮추어 오프라인 프로모션의 실시간 온라인 연동을 가속화한다. 이는 리테일 미디어 네트워크의 확장성을 높이는 핵심 기술이 될 것이다.

섹션별 상세

기존의 수동 디지털화 방식은 전단지 한 장당 3~4시간의 바운딩 박스 작업과 제품 매칭이 필요하여 수백 개의 소매업체 데이터를 처리하기에 확장성 문제가 발생했다.

Phase 1(이미지 분할)에서는 Meta의 SAM을 기반으로 하되, 텍스트 박스 제거, Weighted Boxes Fusion(WBF)을 통한 박스 병합, 모델 앙상블 기법을 추가하여 복잡한 전단지 레이아웃에 대응했다.

WBF 기법은 단순한 NMS와 달리 겹치는 박스들의 좌표를 신뢰도 가중 평균으로 계산하여 정보 손실 없이 더 정밀한 제품 경계 상자를 생성하며, 의료 영상 등 타 분야에서도 mAP를 3~10% 향상시킨 사례가 있다.

Phase 2(제품 식별)에서는 PaddleOCR로 텍스트를 추출하고, 이를 원본 이미지와 함께 LLM에 전달하여 제품 쿼리와 속성을 분리해내는 과정을 거친다.

추출된 쿼리는 인스타카트의 기존 ANN(Approximate Nearest Neighbors) 검색 클러스터를 통해 카탈로그 내 상위 10~15개 제품과 매칭되며, 최종적으로 LLM이 속성 기반 랭킹을 수행하여 95%의 재현율을 달성했다.

이 자동화 파이프라인은 전단지 디자인에 따라 75~90%의 세그멘테이션 정확도를 기록하며 운영 효율성을 10배 향상시켜 소매업체 네트워크 전반으로 확장 가능한 기반을 마련했다.

실무 Takeaway

복잡한 이미지 분할 시 SAM 단독 사용보다 WBF와 휴리스틱 필터를 결합한 하이브리드 접근법이 노이즈 제거와 정확도 향상에 필수적이다.
OCR 결과물을 LLM의 입력값으로 함께 제공하면 제품 검색 성공률(Find Rate)을 평균 15% 이상 높일 수 있다.
기존 검색 인프라(ANN)와 LLM의 랭킹 능력을 결합하면 새로운 이미지 검색 엔진을 처음부터 구축하지 않고도 높은 정확도의 제품 매칭이 가능하다.