핵심 요약
대규모 상업용 검색 시스템은 사용자의 의도를 정확히 파악하기 위해 행동 관련성과 텍스트 관련성이라는 두 가지 목표를 최적화해야 한다. 하지만 전문가가 직접 작성하는 텍스트 관련성 라벨은 행동 데이터에 비해 턱없이 부족하다는 한계가 존재한다. 애플 연구진은 특정 도메인에 특화된 미세조정 LLM을 사용하여 수백만 개의 텍스트 관련성 라벨을 생성함으로써 이 데이터 부족 문제를 해결했다. 이를 실제 App Store 운영 환경에 적용한 결과, 오프라인 지표인 NDCG가 개선되었을 뿐만 아니라 전 세계 A/B 테스트에서 전환율이 0.24% 증가하는 실질적인 성과를 거두었다.
배경
검색 랭킹 알고리즘, NDCG 지표, LLM 미세조정(Fine-tuning)
대상 독자
검색 엔진 개발자, 정보 검색(IR) 연구원, LLM 활용 데이터 증강에 관심 있는 엔지니어
의미 / 영향
LLM을 단순한 챗봇이 아닌 데이터 생성 및 라벨링 도구로 활용하여 전통적인 검색 랭킹 시스템의 한계를 극복할 수 있음을 보여준다. 특히 데이터 희소성 문제를 겪는 롱테일 검색어 처리에서 LLM의 실질적인 가치를 증명했다.
섹션별 상세
검색 시스템의 성능을 극대화하기 위해 사용자의 클릭이나 다운로드 패턴을 분석하는 행동 관련성(Behavioral Relevance)과 쿼리와 결과의 의미적 일치도를 평가하는 텍스트 관련성(Textual Relevance)을 동시에 고려한다. 기존에는 행동 데이터는 풍부한 반면 텍스트 관련성을 판단할 전문가 라벨링 데이터가 부족하여 두 지표 사이의 균형을 맞추는 데 어려움이 있었다.
데이터 부족 문제를 해결하기 위해 LLM을 데이터 라벨러로 활용하는 전략을 채택했다. 실험 결과 단순히 거대한 사전 학습 모델을 사용하는 것보다 특정 도메인에 맞춰 미세조정된 모델이 훨씬 더 정확한 관련성 라벨을 생성한다는 사실이 확인됐다. 이 최적화된 모델을 통해 수백만 개의 고품질 텍스트 관련성 라벨을 대량으로 생성하여 학습 데이터셋을 확장했다.
새롭게 생성된 라벨을 프로덕션 랭커에 통합한 결과 파레토 최적 전선(Pareto Frontier)이 바깥쪽으로 이동하며 행동 관련성과 텍스트 관련성 지표가 동시에 향상되었다. 특히 검색 이력이 적어 행동 데이터가 부족한 롱테일(Tail) 쿼리에서 텍스트 관련성 라벨이 강력한 신호 역할을 수행하며 성능을 크게 개선했다.
실제 App Store를 대상으로 한 전 세계 규모의 A/B 테스트에서 통계적으로 유의미한 +0.24%의 전환율 상승을 기록했다. 이는 LLM이 생성한 합성 데이터가 실제 상업용 서비스의 핵심 알고리즘을 개선하고 사용자 경험을 실질적으로 향상시킬 수 있음을 입증한 사례이다.
실무 Takeaway
- 데이터가 부족한 텍스트 관련성 평가 영역에서 미세조정된 LLM을 활용해 수백만 개의 합성 라벨을 생성하여 학습 데이터를 효과적으로 보강할 수 있다.
- 행동 데이터가 부족한 롱테일 쿼리에서 LLM 기반의 텍스트 관련성 신호가 검색 품질을 보완하는 데 매우 강력한 도구가 된다.
- 범용 거대 모델보다 특정 작업에 특화된 미세조정 모델이 라벨링 정확도와 비용 효율성 측면에서 우수한 성능을 보여준다.
AI 분석 전체 내용 보기
AI 요약 · 북마크 · 개인 피드 설정 — 무료