검색 관련성 확장: LLM 생성 판단을 통한 App Store 랭킹 강화

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

대규모 상업용 검색 시스템은 사용자가 원하는 결과를 찾을 수 있도록 행동 관련성과 텍스트 관련성이라는 두 가지 목표를 최적화한다. Apple은 전문가가 제공하는 텍스트 관련성 레이블의 부족 문제를 해결하기 위해 미세 조정된 LLM을 활용하여 수백만 개의 레이블을 생성했다. 이 데이터를 프로덕션 랭커에 통합한 결과, 오프라인 NDCG 지표가 향상되었으며 실제 App Store A/B 테스트에서 전환율이 0.24% 증가하는 성과를 거두었다. 특히 행동 데이터가 부족한 롱테일 쿼리에서 텍스트 관련성 레이블이 강력한 신호 역할을 하여 성능을 크게 개선했다.

배경

검색 랭킹 시스템(Ranking System)의 기본 이해, NDCG 등 검색 평가 지표에 대한 지식, LLM Fine-tuning 개념

대상 독자

검색 엔진 개발자, 추천 시스템 엔지니어, LLM 데이터 엔지니어

의미 / 영향

LLM을 단순 추론용이 아닌 고품질 데이터 생성기(Labeler)로 활용하여 기존 머신러닝 모델의 성능을 극대화하는 실질적인 사례를 제시했다. 이는 데이터 확보 비용이 높은 전문 분야에서 LLM의 가치를 재확인시켜 준다.

섹션별 상세

검색 시스템 최적화를 위해 사용자의 클릭이나 다운로드 기록인 행동 관련성과 쿼리와 결과 간의 의미적 일치도인 텍스트 관련성을 결합하여 활용한다. 전문가가 직접 작성하는 텍스트 관련성 레이블은 확보하기 어렵고 비용이 많이 들기 때문에 이를 대체할 방법이 필요했다. 다양한 LLM 구성을 실험한 결과, 단순히 크기가 큰 사전 학습 모델보다 특정 도메인에 맞춰 미세 조정된 모델이 훨씬 더 정확한 레이블을 생성한다는 사실을 발견했다.

미세 조정된 LLM을 활용하여 수백만 개의 고품질 텍스트 관련성 레이블을 자동으로 생성하고 이를 기존 프로덕션 랭킹 모델의 학습 데이터로 추가했다. 이 데이터 증강 과정을 통해 오프라인 평가 지표인 NDCG에서 행동 관련성과 텍스트 관련성이 동시에 향상되는 파레토 최적 전선의 확장을 확인했다. 이는 LLM이 생성한 데이터가 실제 전문가의 판단을 효과적으로 모사하며 모델 학습에 실질적인 도움을 주었음을 시사한다.

전 세계 App Store 사용자를 대상으로 진행한 대규모 A/B 테스트에서 새로운 랭킹 모델은 기존 대비 전환율을 0.24% 향상시키는 성과를 거두었다. 특히 과거 행동 데이터가 거의 없는 롱테일 쿼리에서 LLM 기반의 텍스트 관련성 신호가 강력한 가이드 역할을 수행하여 검색 품질을 크게 개선했다. 이러한 결과는 데이터 희소성 문제를 해결하는 데 있어 LLM이 생성한 판단 데이터가 매우 유용한 자산이 될 수 있음을 입증한다.

실무 Takeaway

전문가 레이블이 부족한 도메인에서는 대형 범용 모델보다 특정 태스크에 미세 조정된 LLM을 사용하여 고품질 학습 데이터를 대량으로 생성하는 전략이 효과적이다.
검색 랭킹 시스템에 LLM 기반 텍스트 관련성 신호를 추가하면 행동 데이터가 부족한 롱테일 쿼리의 검색 정확도를 크게 높일 수 있다.
오프라인 지표(NDCG)의 개선이 실제 프로덕션 환경의 비즈니스 지표(전환율 +0.24%) 향상으로 이어짐을 대규모 A/B 테스트를 통해 입증했다.

언급된 리소스

논문Scaling Search Relevance: Augmenting App Store Ranking with LLM-Generated Judgments