생성형 추천 모델은 얼마나 잘 일반화되는가?

왜 중요한가

생성형 추천 모델이 기존 ID 기반 모델보다 뛰어난 이유가 단순히 '똑똑해서'가 아니라 '잘게 쪼개서 암기하기 때문'임을 밝혀냈다. 이를 통해 추천 시스템의 성능을 높이기 위해 어떤 방식으로 아이템을 토큰화하고 모델을 조합해야 하는지에 대한 실질적인 설계 지침을 제공한다.

핵심 기여

암기 및 일반화 분류 체계 제안

추천 데이터의 전이 패턴을 분석하여 모델이 단순히 외운 것인지(암기), 아니면 논리적으로 유유추한 것인지(일반화)를 구분하는 정밀한 평가 프레임워크를 수립했다.

생성형 모델의 일반화 메커니즘 규명

생성형 추천 모델의 아이템 수준 일반화 능력이 실제로는 의미론적 ID의 접두사 토큰을 암기하는 과정에서 발생한다는 사실을 실험적으로 증명했다.

모델별 성능 트레이드오프 확인

생성형 모델은 새로운 조합을 찾는 일반화에 강점이 있는 반면, 기존 ID 기반 모델은 이미 본 패턴을 정확히 기억하는 암기 성능이 더 우수함을 확인했다.

적응형 앙상블 전략 개발

인스턴스별 암기 가능성을 예측하는 지표를 도입하여 두 모델의 장점을 결합함으로써 모든 벤치마크 데이터셋에서 성능 향상을 달성했다.

핵심 아이디어 이해하기

추천 시스템은 사용자가 다음에 클릭할 아이템을 예측하기 위해 '아이템 A 다음에는 B가 온다'는 패턴을 학습한다. 기존의 SASRec 같은 모델은 각 아이템에 고유한 번호(ID)를 부여하고 이를 벡터(Embedding)로 변환하여 학습한다. 이는 학습 데이터에 명확히 존재하는 관계를 암기하는 데는 매우 효율적이지만, 한 번도 본 적 없는 새로운 아이템 조합이 나타나면 예측력이 급격히 떨어진다.

생성형 추천(GR) 모델은 아이템을 하나의 번호가 아닌 여러 개의 의미 있는 조각(Token)들로 구성된 시퀀스로 취급한다. 예를 들어 'A'라는 아이템을 [카테고리:신발, 색상:빨강, 스타일:운동화]와 같은 토큰들의 묶음으로 표현하는 식이다. 이 논문은 GR 모델이 '아이템 A → 아이템 B'라는 전체 관계는 본 적이 없더라도, '신발 → 운동화'와 같은 세부 토큰 간의 관계를 이미 암기하고 있다면 이를 조합해 정답을 맞힐 수 있다는 점에 주목했다.

즉, 생성형 모델이 보여주는 뛰어난 '일반화' 능력의 실체는 사실 아주 세밀한 단위의 '토큰 암기'가 결합된 결과물이다. 모델은 거대한 아이템 지도를 통째로 외우는 대신, 지도를 구성하는 작은 길(토큰 전이)들을 외워두었다가 처음 가보는 목적지라도 아는 길들을 조합해 찾아가는 방식으로 작동한다. 이러한 원리를 이해하면 추천 모델의 성능을 높이기 위해 아이템을 어떻게 토큰으로 나눌지가 얼마나 중요한지 알 수 있다.

방법론

데이터 인스턴스를 암기(Memorization), 일반화(Generalization), 미분류(Uncategorized)로 나누는 분석 프레임워크를 구축했다. 암기는 1-hop 전이 패턴이 학습 데이터에 존재하는 경우로 정의하며, 일반화는 대칭성(Symmetry), 이행성(Transitivity), 2차 대칭성(2nd-order Symmetry) 등 논리적 추론이 필요한 경우로 세분화하여 각 모델의 강점을 측정했다.

생성형 모델의 작동 원리를 분석하기 위해 접두사 n-gram 암기(Prefix n-gram Memorization) 개념을 도입했다. 아이템 i의 토큰 시퀀스에서 앞부분 n개를 추출하는 pref_n(i) 연산을 정의했다. [입력 아이템의 접두사 토큰 → 학습된 전이 확률 계산 → 출력 아이템의 접두사 토큰 생성] 과정을 통해, 아이템 전체가 아닌 부분적인 특징들의 전이 패턴을 모델이 어떻게 학습하고 활용하는지 정량화했다.

두 모델의 장점을 결합하기 위해 적응형 앙상블(Adaptive Ensemble)을 제안했다. ID 기반 모델의 최대 소프트맥스 확률(Maximum Softmax Probability, MSP)을 암기 가능성 지표로 활용한다. [ID 모델의 출력 확률 분포를 입력으로] → [가장 높은 확률값을 추출하는 연산을 수행해] → [신뢰도 점수 s_Conf(u)를 얻고] → [이 값이 높으면 암기에 강한 ID 모델에, 낮으면 일반화에 강한 GR 모델에 더 높은 가중치를 부여]하여 최종 추천 결과를 산출한다.

주요 결과

7개의 대규모 데이터셋(Sports, Beauty, Steam 등)에서 실험한 결과, 생성형 모델인 TIGER는 일반화가 필요한 서브셋에서 기존 SASRec 대비 최대 58.8% 높은 성능을 보였다. 반면 SASRec은 이미 학습한 패턴을 다시 맞히는 암기 서브셋에서 TIGER보다 최대 43.6% 우수한 성능을 기록하여 두 패러다임의 명확한 성능 교차 지점을 확인했다.

토큰 수준 분석을 통해 아이템 수준에서 일반화로 분류된 사례의 99% 이상이 실제로는 1개 이상의 토큰 접두사 암기로 설명될 수 있음을 발견했다. 이는 생성형 모델의 추론 능력이 세밀한 토큰 단위의 지식 재조합에서 비롯됨을 뒷받침하는 강력한 증거이다.

제안된 적응형 앙상블 전략은 모든 실험 데이터셋에서 단일 모델들을 일관되게 압도했다. 특히 암기와 일반화의 경계가 뚜렷한 데이터셋에서 성능 향상 폭이 컸으며, 이는 인스턴스의 특성에 맞춰 모델을 동적으로 선택하는 방식의 유효성을 입증한다.

실무 활용

추천 시스템 설계 시 데이터의 희소성과 전이 패턴의 복잡도에 따라 최적의 모델 구조를 선택할 수 있는 기준을 제시한다. 특히 기존 시스템을 전면 교체하지 않고도 생성형 모델을 부분적으로 결합하여 성능을 개선할 수 있는 하이브리드 접근법을 제안한다.

신규 아이템이 빈번하게 추가되어 암기만으로는 대응하기 어려운 이커머스 추천 시스템 개선
사용자의 복잡한 탐색 경로를 논리적으로 추론해야 하는 콘텐츠 스트리밍 서비스의 추천 엔진 강화
아이템의 텍스트 메타데이터를 활용해 효율적인 의미론적 ID(Semantic ID) 체계를 설계하려는 경우

기술 상세

본 연구는 생성형 추천(GR) 모델의 성능 우위가 일반화 역량에 있다는 통념을 체계적으로 검증했다. 아이템 간의 1-hop 전이 관계를 기반으로 데이터셋을 분할하여, GR 모델이 본 적 없는 전이 패턴을 추론하는 데 특화되어 있음을 정량적으로 보여주었다.

GR 모델의 핵심 메커니즘인 Semantic ID 구조가 토큰 수준에서 어떻게 작동하는지 분석했다. 계층적 정보를 담은 토큰 시퀀스는 모델이 아이템 전체를 개별적으로 암기하는 대신, 공통된 접두사(Prefix) 패턴을 공유하게 함으로써 데이터 희소성 문제를 구조적으로 해결한다.

실험을 통해 코드북 크기(Codebook Size) V와 토큰 시퀀스 길이 L이 모델의 성능에 미치는 영향을 분석했다. 작은 V(밀집된 코드북)는 토큰 공유를 극대화하여 일반화 성능을 높이지만, 개별 아이템의 고유한 전이 패턴을 기억하는 암기력은 저하시키는 강력한 정규화(Regularization) 효과를 유도한다.

앙상블 지표로 사용된 MSP는 ID 기반 모델이 학습 데이터를 얼마나 확신 있게 복원하는지를 측정한다. 이를 시그모이드 함수를 통해 가중치 α(u)로 변환함으로써, 모델이 잘 아는 영역(암기)과 모르는 영역(일반화)을 구분하여 최적의 예측을 수행하도록 설계했다.

한계점

이 연구는 주로 4-hop 이내의 전이 패턴을 중심으로 분석을 수행했으므로, 매우 긴 사용자 이력이나 초장기적 의존성이 필요한 추천 시나리오에서의 일반화 특성은 충분히 검증되지 않았을 수 있다. 또한 Semantic ID를 생성하는 다양한 알고리즘(RQ-VAE 등) 간의 세부적인 메커니즘 차이에 대한 분석은 향후 과제로 남겨두었다.

키워드

Generative Recommendation(생성형 추천)Generalization(일반화)Memorization(암기)Semantic ID(의미론적 ID)Sequential Recommendation(순차적 추천)