핵심 요약
클릭과 장바구니 예측에는 신경망(NN)의 상호작용 정보가 효과적이며, 구매 예측에는 공통 방문(Covisitation) 기반의 통계 정보가 더 강력한 성능을 발휘한다. 이를 적절히 조합한 2단계 전략이 대규모 추천 시스템 최적화의 핵심이다.
배경
OTTO Multi-Objective Recommender System Challenge는 1,200만 개 이상의 아이템을 대상으로 사용자의 세션 내 클릭, 장바구니 담기, 구매 행동을 예측하는 대회였다.
대상 독자
추천 시스템 개발자, 데이터 사이언티스트, ML 경진대회 참가자
의미 / 영향
이 솔루션은 이커머스 환경에서 클릭률 최적화를 넘어 실제 구매 전환까지 고려하는 다중 목적 추천 모델의 실전적 설계도를 제시한다. 특히 신경망과 전통적인 통계 기법을 목적에 따라 적재적소에 배치하고 결합하는 전략은 실제 서비스의 추천 엔진 고도화에 즉시 적용 가능한 인사이트를 제공한다.
챕터별 상세
솔루션 개요 및 2단계 전략
- •Recall과 Reranking으로 이어지는 전형적이고 강력한 2단계 추천 아키텍처 채택
- •목적(클릭, 장바구니, 구매)에 따라 서로 다른 Recall 전략의 가중치를 다르게 적용
- •신경망 모델은 PyTorch를, 랭킹 모델은 LightGBM을 사용하여 구현
피처 엔지니어링 및 데이터 처리
- •세션 내 행동 패턴을 수치화한 통계 피처와 모델 기반 점수를 결합
- •Polars를 활용하여 1,000만 개 이상의 아이템 데이터를 효율적으로 처리
- •신경망 예측 결과를 Reranking 모델의 핵심 피처로 통합
신경망(NN) 학습 아키텍처
- •Two-tower 구조와 네거티브 샘플링을 통한 효율적인 세션 임베딩 학습
- •시간 정보와 이벤트 타입을 임베딩에 포함하여 세션의 맥락 정보 강화
- •8개 모델 앙상블을 통해 예측의 다양성과 안정성 확보
LightGBM Reranker 및 앙상블
- •LambdaRank를 활용하여 추천 리스트의 상위권 정확도 최적화
- •9개 모델의 결과값을 평균하는 단순 앙상블로도 견고한 성능 향상 달성
- •대규모 데이터셋 대응을 위해 약 2주간의 연산 파이프라인 구축
주요 발견: 목적별 효과적인 모델링 차이
- •데이터 밀도가 높은 클릭/장바구니는 신경망의 복잡한 패턴 추출이 유리
- •결정적 행동인 주문은 통계 기반의 연관 규칙(Covisitation)이 더 정확
- •목적에 따라 모델의 기여도가 다르다는 점이 다중 목적 최적화의 핵심 인사이트
cosine_sim_pos = torch.matmul(x_m, y_pos_m.transpose(1, 2)).squeeze(2)
// ...(중략)
cosine_sim_neg = torch.matmul(x_m, y_neg_m.transpose(1, 2))
loss = torch.cat([cosine_sim_pos.unsqueeze(1), cosine_sim_neg], dim=1) / CFG.temperature
loss = -torch.log(torch.softmax(loss, dim=1)[:, 0])
return loss.mean()코사인 유사도와 소프트맥스를 활용하여 신경망의 손실 함수(Categorical Cross Entropy)를 계산하는 핵심 로직
실무 Takeaway
- 추천 시스템에서 클릭과 같은 고빈도 이벤트는 신경망(NN)을 통해 복잡한 유저-아이템 상호작용을 학습하는 것이 유리하다.
- 구매와 같은 저빈도/결정적 이벤트는 공통 방문 행렬(Covisitation)과 같은 통계적 연관 규칙을 활용하는 것이 모델 기반 접근보다 성능이 좋을 수 있다.
- Recall 단계에서 다양한 소스(NN, 통계, 규칙)를 결합하여 후보군을 확보하고 Reranking에서 통합하는 구조가 대규모 추천 최적화의 정석이다.
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.