핵심 요약
산업용 추천 시스템이 LLM 기반의 생성형 검색(Generative Retrieval)으로 전환되면서 비즈니스 로직을 준수하기 위한 제약 조건 디코딩의 효율성이 중요해졌다. 기존의 접두사 트리(Trie) 방식은 하드웨어 가속기(TPU/GPU)의 메모리 구조와 컴파일 방식에 부적합하여 심각한 병목 현상을 일으킨다. 구글 딥마인드와 유튜브 연구진은 트리를 정적 희소 행렬(CSR)로 평탄화하여 벡터화된 연산을 가능하게 하는 STATIC 프레임워크를 개발했다. 이 방식은 유튜브 실서비스에서 2,000만 개의 아이템 제약을 100% 준수하면서도 기존 대비 최대 948배의 속도 향상을 달성했다.
배경
LLM Inference, Trie Data Structure, Sparse Matrix (CSR), TPU/GPU Architecture
대상 독자
LLM 기반 추천 시스템을 구축하거나 추론 최적화를 연구하는 엔지니어 및 연구자
의미 / 영향
LLM을 활용한 생성형 검색 기술이 이론적 연구를 넘어 대규모 실서비스에 적용될 수 있는 기술적 토대를 마련했다. 특히 하드웨어 친화적인 알고리즘 설계가 AI 모델의 실용성을 얼마나 극적으로 높일 수 있는지 보여주는 사례이다.
섹션별 상세
추천 시스템에서 LLM이 유효한 아이템 ID만 생성하도록 제한할 때 주로 사용되는 접두사 트리는 포인터 추적 구조로 인해 메모리 접근이 불연속적이다. 이는 현대 가속기의 고대역폭 메모리(HBM) 성능을 저해하며, 데이터 의존적인 제어 흐름 때문에 XLA와 같은 정적 계산 그래프 컴파일러와 호환되지 않아 호스트-장치 간 잦은 통신을 유발한다.
연구진은 트리를 그래프로 탐색하는 대신 CSR(Compressed Sparse Row) 행렬 형태로 평탄화하여 불규칙한 트리 탐색을 벡터화된 희소 행렬 연산으로 변환했다. 초기 레이어에서는 비트 패킹된 밀집 텐서를 사용해 O(1) 조회를 수행하고, 깊은 레이어에서는 고정된 크기의 슬라이스를 처리하는 VNTK(Vectorized Node Transition Kernel)를 적용하여 전체 디코딩 과정을 단일 정적 계산 그래프로 유지한다.
TPU v6e 가속기에서 30억 파라미터 모델로 테스트한 결과, STATIC은 단계당 지연 시간을 0.033ms로 줄여 CPU 오프로드 방식 대비 948배, 기존 하드웨어 가속 이진 탐색 대비 1000배 이상의 속도 향상을 보였다. 메모리 사용량 또한 아이템 100만 개당 약 90MB 수준으로 매우 효율적이며, 아이템 수가 늘어나도 지연 시간이 거의 일정하게 유지되는 확장성을 입증했다.
유튜브의 최근 7일 이내 영상 추천 제약 조건에 STATIC을 적용한 결과, 2,000만 개의 후보군에 대해 100%의 제약 준수율을 기록했다. 온라인 A/B 테스트에서는 7일 이내 신규 영상 조회수가 5.1% 증가하고 전체 클릭률(CTR)이 0.15% 상승하는 등 추천 품질과 비즈니스 지표 모두에서 유의미한 개선을 확인했다.
실무 Takeaway
- 접두사 트리를 정적 희소 행렬(CSR)로 변환하여 TPU/GPU 가속기에서 벡터화된 연산이 가능하도록 최적화해야 한다.
- 제약 조건의 크기가 커져도 지연 시간이 일정하게 유지되는 O(1) I/O 복잡도를 달성하여 대규모 서비스 확장이 용이하다.
- LLM 기반 추천 시스템에서 비즈니스 로직을 강제하면서도 추론 속도를 유지하는 것이 실서비스 도입의 핵심이다.
AI 분석 전체 내용 보기
AI 요약 · 북마크 · 개인 피드 설정 — 무료