UniMixer: 추천 시스템의 스케일링 법칙을 위한 통합 아키텍처

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존 추천 시스템은 Attention, TokenMixer, FM 기반으로 파편화되어 성능 확장에 한계가 있었으나, 이를 하나의 수식으로 통합하여 모델 크기에 따른 성능 향상을 극대화했다. 특히 연산 효율을 높인 UniMixing-Lite를 통해 실제 서비스 환경에서 적은 비용으로 더 높은 예측 정확도를 달성할 수 있음을 입증했다.

왜 중요한가

핵심 기여

TokenMixer의 매개변수화 및 학습 가능 구조 변환

고정된 규칙 기반의 TokenMixer를 순열 행렬(Permutation Matrix)의 곱으로 재정의하고, 이를 학습 가능한 매개변수 구조로 변환하여 데이터에 최적화된 특징 혼합 패턴을 스스로 학습하게 했다.

통합 스케일링 프레임워크 UniMixer 제안

Attention-based, TokenMixer-based, Factorization Machine(FM) 기반 모델들을 하나의 통합된 이론적 체계 내에서 설명하고 결합할 수 있는 아키텍처를 설계하여 추천 시스템의 표준 블록을 제시했다.

고효율 UniMixing-Lite 모듈 설계

로컬 및 글로벌 특징 혼합 패턴을 분리하고 저순위 근사(Low-rank approximation)와 기저 구성(Basis-composed) 방식을 적용하여 파라미터 수와 연산량을 대폭 절감하면서도 성능을 유지했다.

SiameseNorm을 통한 깊은 모델 학습 안정화

Pre-Norm과 Post-Norm의 장점을 결합한 이중 스트림 구조인 SiameseNorm을 도입하여, 모델 층이 깊어질 때 발생하는 학습 불안정성을 해소하고 지속적인 성능 향상을 가능케 했다.

핵심 아이디어 이해하기

추천 시스템에서 사용자 행동이나 아이템 특징은 서로 다른 의미 공간(Heterogeneous)을 가진다. 기존의 Attention 방식은 모든 토큰 쌍의 유사도를 계산하느라 연산량이 많고 특정 토큰에 가중치가 쏠리는 현상이 발생하며, TokenMixer는 고정된 규칙으로 특징을 섞어 학습 능력이 부족하다는 한계가 있었다.

UniMixer는 TokenMixer의 작동 방식을 '순열 행렬'이라는 수학적 도구로 해석하여 이를 학습 가능한 가중치로 바꾸었다. 즉, 어떤 특징들을 어떻게 섞을지를 모델이 직접 학습하게 만든 것이다. 이때 연산량을 줄이기 위해 거대한 행렬을 직접 학습하는 대신, 작은 두 행렬의 곱인 Kronecker product로 분해하여 효율성을 확보했다.

결과적으로 LLM에서 확인된 것처럼 모델 파라미터와 연산량을 늘릴수록 추천 성능이 일정하게 좋아지는 '스케일링 법칙'을 추천 시스템에서도 명확하게 구현해냈다. 이는 추천 모델이 단순히 데이터를 외우는 수준을 넘어, 복잡한 특징 간의 상호작용을 더 깊게 이해할 수 있음을 의미한다.

방법론

UniMixing 모듈은 입력 특징 $X$ 를 평탄화(flatten)한 후, 글로벌 혼합 행렬 $W_G$ 와 로컬 혼합 행렬 $W_B^i$ 의 일반화된 크로네커 곱을 적용한다. [L//B 개의 블록 입력을] → [각 블록별 $W_B^i$ 행렬 곱을 통해 로컬 특징을 추출하고] → [ $W_G$ 를 통해 블록 간 글로벌 상호작용을 계산하여] → [최종적으로 혼합된 특징 벡터를 출력하는] 구조를 가진다. 이 과정에서 연산 복잡도는 $O(L^2)$ 에서 $O(L^2/B + LB)$ 로 감소한다.

학습된 행렬이 유효한 확률 분포 특성을 갖도록 Sinkhorn-Knopp 반복 알고리즘을 사용한다. [행렬의 각 원소에 지수 함수를 적용하여 양수로 만들고] → [행과 열의 합이 1이 되도록 교대로 정규화하는 과정을 반복하여] → [이중 확률 행렬(Doubly Stochastic Matrix)을 얻고] → [온도 계수 $au$ 를 통해 가중치의 희소성을 조절한다].

UniMixing-Lite는 효율성을 극대화하기 위해 $W_G$ 를 저순위 행렬 $A_G, B_G$ 의 곱으로 근사하고, $W_B^i$ 를 소수의 기저 행렬 $Z_l$ 들의 선형 결합으로 생성한다. 이는 파라미터 수를 줄이면서도 다양한 특징 상호작용 패턴을 표현할 수 있게 하며, 모델의 깊이를 확장할 때 발생하는 메모리 부담을 최소화한다.

주요 결과

Kuaishou의 실제 광고 서빙 데이터셋(0.7B 샘플) 실험 결과, UniMixer-Lite는 기존 SOTA 모델인 RankMixer 대비 파라미터 수는 70% 이상 줄이면서도 AUC 0.7527을 기록하여 더 높은 성능을 달성했다. 특히 모델 규모가 커질수록 성능 향상 폭이 다른 모델보다 가파르게 나타나 스케일링 효율성이 우수함이 증명됐다.

스케일링 법칙 분석에서 UniMixer-Lite의 성능 향상 기울기(Scaling exponent)는 파라미터 기준 0.1419, 연산량 기준 0.1353으로 나타나 RankMixer(0.1160, 0.1166)를 크게 상회했다. 이는 동일한 자원을 투입했을 때 UniMixer가 더 높은 성능 이득을 얻을 수 있음을 의미한다.

실제 온라인 A/B 테스트 결과, 여러 광고 시나리오에서 30일간의 누적 활성 일수(CAD)가 평균 15% 이상 증가하는 비즈니스 성과를 거두었다. 또한 모델의 깊이를 늘리는 것이 너비를 늘리는 것보다 성능 향상에 더 효율적이라는 사실을 실험적으로 확인했다.

기술 상세

전체 아키텍처는 Feature Tokenization, M개의 UniMixer Blocks, SiameseNorm, Pertoken SwiGLU로 구성된다. 입력 특징은 도메인별 임베딩 층을 거친 후 토큰별 선형 층(Token-Specific Linear Layer)을 통해 통일된 차원 $D$ 로 투영되어 $X ∈ R^{T × D}$ 형태의 히든 스테이트를 형성한다.

SiameseNorm은 Pre-Norm과 Post-Norm 사이의 긴장을 해소하기 위해 두 개의 결합된 스트림을 유지한다. $Y_{l} = ext{RMSNorm}(Y_{l-1})$ , $O_l = ext{UniMixer}(X_{l-1} + Y_l)$ 연산을 거쳐 $X_l = ext{RMSNorm}(X_{l-1} + O_l)$ 과 $Y_l = Y_{l-1} + O_l$ 로 업데이트하며 학습 안정성을 보장한다.

학습 전략으로 온도 계수 $au$ 를 1.0에서 0.05까지 선형적으로 낮추는 Annealing 기법을 적용한다. 초기에는 부드러운 가중치 분포로 전역적인 탐색을 수행하고, 학습 후기에는 가중치를 희소하게 만들어 핵심적인 특징 상호작용에 집중하도록 유도한다.

Pertoken SwiGLU는 각 토큰의 이질성을 모델링하기 위해 도입되었으며, 토큰별로 독립적인 가중치를 사용하여 비선형 변환을 수행한다. 이는 통합된 특징 혼합 이후 각 토큰이 가진 고유한 정보를 정교하게 정제하는 역할을 한다.

실무 활용

대규모 추천 시스템을 운영하는 환경에서 모델 규모 확장을 통해 성능을 개선하고자 할 때 직접적인 아키텍처 가이드를 제공한다.

광고 클릭률(CTR) 및 전환율(CVR) 예측 모델의 성능 확장
대규모 사용자 행동 시퀀스 기반의 개인화 추천 엔진 구축
연산 자원이 제한된 모바일 또는 엣지 환경을 위한 고효율 추천 모델 배포

코드 공개 여부: 미확인

키워드

Scaling Laws(스케일링 법칙)Recommendation System(추천 시스템)UniMixer(유니믹서)Attention Mechanism(어텐션 메커니즘)Kronecker Product(크로네커 곱)Sinkhorn-Knopp(싱크혼-놉)