LLM을 활용한 인스타카트(Instacart) 디스커버리 추천 시스템 혁신 여정

핵심 요약

기존의 정적이고 수동적인 추천 시스템은 사용자별 다양한 요구와 계절적 변화에 대응하는 데 한계가 있었다. 인스타카트는 이를 해결하기 위해 LLM을 활용한 '페이지 디자인-테마 생성-키워드 추출'의 단계적 생성 파이프라인을 도입했다. 이 시스템은 검색 증강 생성(RAG)과 교사-학생(Teacher-Student) 학습 모델을 결합하여 비용 효율성을 높였으며, 미세 조정된 DeBERTa 모델을 통해 품질을 검증한다. 결과적으로 기존 시스템 대비 높은 개인화 수준과 응집력을 확보하며 오프라인 및 A/B 테스트에서 성능 향상을 입증했다.

배경

추천 시스템(Recommendation Systems)의 기본 개념, LLM 파인튜닝(Fine-tuning) 및 LoRA에 대한 이해, RAG(Retrieval-Augmented Generation) 아키텍처 지식

대상 독자

추천 시스템을 운영하거나 LLM을 프로덕션 환경에 도입하려는 ML 엔지니어 및 아키텍트

의미 / 영향

이 사례는 LLM이 단순한 텍스트 생성을 넘어 복잡한 추천 시스템의 핵심 로직을 대체할 수 있음을 보여준다. 특히 RAG와 모델 경량화 기법을 결합하여 대규모 이커머스 환경에서도 비용 효율적인 AI 네이티브 서비스 구축이 가능하다는 점을 시사한다.

섹션별 상세

기존 추천 엔진의 한계와 AI 도입 배경: 기존 시스템은 사람이 직접 정의한 정적 콘텐츠 라이브러리에 의존하여 개인화 확장이 어렵고 배치가 파편화되는 문제가 있었다. 이를 해결하기 위해 LLM을 도입하여 사용자 데이터 기반의 역동적이고 응집력 있는 쇼핑 경험을 설계하고자 했다.

탑다운(Top-down) 생성 방식 채택: 모든 제품을 먼저 생성하는 바텀업 방식 대신 페이지 전체의 테마를 먼저 정하고 세부 제품을 채우는 탑다운 방식을 선택했다. 이는 지연 시간(Latency) 관리와 카탈로그 변화 대응에 유리하며 페이지 전체의 일관성을 유지하는 데 효과적이다.

단계별 생성 파이프라인 아키텍처: 시스템은 페이지 디자인, 검색 키워드 생성, 품질 필터링, 최종 랭킹의 4단계로 구성된다. 특히 키워드 생성 단계에서는 RAG를 사용하여 후보군을 30만 개에서 100개로 압축함으로써 토큰 비용을 15-20% 절감했다.

교사-학생(Teacher-Student) 파인튜닝: 비용과 지연 시간을 최적화하기 위해 고성능 폐쇄형 LLM(교사)이 생성한 데이터를 바탕으로 내부 모델(학생)을 미세 조정했다. Llama와 Qwen 모델군을 대상으로 LoRA 어댑터를 적용하는 등 다양한 실험을 통해 최적의 학생 모델을 도출했다.

3단계 평가 프레임워크(Evals): LLM-as-a-judge, 미세 조정된 DeBERTa 모델, 그리고 전통적인 ML 지표를 결합한 강력한 평가 체계를 구축했다. 특히 DeBERTa 모델은 LLM 대비 비용을 99% 절감하면서도 실시간 품질 필터링을 가능하게 하여 시스템의 신뢰도를 높였다.

구조화된 입출력과 가드레일 적용: 제약된 디코딩(Constrained Decoding)과 구조화된 스키마를 사용하여 모델 출력의 해석 가능성을 확보했다. 또한 브랜드 규정 준수 및 할루시네이션 방지를 위한 비즈니스 정책 가드레일을 단계별로 적용하여 안전성을 강화했다.

이미지 분석

Screenshot
다양한 배치(Placement)가 모여 하나의 페이지를 구성하는 방식을 시각화했다. 각 배치가 독립적으로 생성되고 랭킹되는 기존 시스템의 구조적 특징을 설명한다.
인스타카트 쇼핑 허브의 현재 구조를 보여주는 스크린샷이다.

Diagram
제품을 먼저 뽑고 클러스터링하는 방식과 테마를 먼저 정하고 제품을 채우는 방식의 차이를 명확히 보여준다. 인스타카트가 왜 탑다운 방식을 선택했는지에 대한 논리적 근거를 제공한다.
바텀업(Bottoms-up)과 탑다운(Top-down) 생성 방식의 비교 다이어그램이다.

Diagram
페이지 디자인, 키워드 생성, 필터링, 랭킹으로 이어지는 4단계 프로세스를 도식화했다. 각 단계가 어떻게 연결되어 최종 사용자 화면을 구성하는지 아키텍처를 설명한다.
인스타카트의 생성형 콘텐츠 파이프라인 개요도이다.

Diagram
제품과 테마 제목 사이의 관련성을 점수화하여 부적절한 콘텐츠를 걸러내는 과정을 보여준다. LLM 대비 99%의 비용 절감 효과를 가져온 핵심 품질 관리 도구이다.
미세 조정된 배치 평가 모델(DeBERTa)의 작동 방식이다.

Diagram
오프라인 생성 및 캐싱 단계와 온라인 서빙 단계가 어떻게 상호작용하는지 전체 시스템 구성을 보여준다. RAG와 평가 모델이 시스템 내에서 차지하는 위치를 확인할 수 있다.
전체 콘텐츠 생성 및 평가 아키텍처 통합 다이어그램이다.

실무 Takeaway

복잡한 생성 작업을 단일 모델에 맡기기보다 여러 단계로 분해하여 처리하는 것이 성능과 튜닝 용이성 측면에서 유리하다.
LLM-as-a-judge는 평균적인 품질 측정에는 유용하지만 대규모 실시간 필터링에는 DeBERTa와 같은 경량화된 전용 모델이 훨씬 효율적이다.
RAG를 활용한 컨텍스트 압축과 구조화된 입출력 설계는 에이전트 시스템의 안정성과 확장성을 보장하는 핵심 요소이다.

핵심 요약

배경

추천 시스템(Recommendation Systems)의 기본 개념, LLM 파인튜닝(Fine-tuning) 및 LoRA에 대한 이해, RAG(Retrieval-Augmented Generation) 아키텍처 지식

대상 독자

추천 시스템을 운영하거나 LLM을 프로덕션 환경에 도입하려는 ML 엔지니어 및 아키텍트

의미 / 영향

섹션별 상세

이미지 분석

실무 Takeaway

복잡한 생성 작업을 단일 모델에 맡기기보다 여러 단계로 분해하여 처리하는 것이 성능과 튜닝 용이성 측면에서 유리하다.
LLM-as-a-judge는 평균적인 품질 측정에는 유용하지만 대규모 실시간 필터링에는 DeBERTa와 같은 경량화된 전용 모델이 훨씬 효율적이다.
RAG를 활용한 컨텍스트 압축과 구조화된 입출력 설계는 에이전트 시스템의 안정성과 확장성을 보장하는 핵심 요소이다.

LLM을 활용한 인스타카트(Instacart) 디스커버리 추천 시스템 혁신 여정

핵심 요약

배경

대상 독자

의미 / 영향

섹션별 상세

이미지 분석

실무 Takeaway

LLM을 활용한 인스타카트(Instacart) 디스커버리 추천 시스템 혁신 여정

핵심 요약

배경

대상 독자

의미 / 영향

섹션별 상세

이미지 분석

실무 Takeaway

관련 피드

관련 토론

댓글

관련 피드

관련 토론

댓글