HyTRec: 장기 행동 시퀀스 추천을 위한 하이브리드 시간 인지 어텐션 아키텍처

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

사용자의 수만 건에 달하는 과거 행동 데이터를 실시간 추천에 활용하는 것은 연산량 문제로 매우 어려웠다. 이 논문은 연산 효율이 좋은 선형 어텐션과 정확도가 높은 소프트맥스 어텐션을 결합하여, 속도는 유지하면서도 사용자의 장기적 취향과 갑작스러운 관심사 변화를 모두 정확하게 포착하는 방법을 제시한다.

왜 중요한가

핵심 기여

하이브리드 어텐션 아키텍처 설계

대규모 이력 처리를 위한 선형 어텐션과 최근 상호작용을 위한 소프트맥스 어텐션을 전략적으로 결합하여 연산 복잡도와 검색 정밀도 사이의 균형을 달성했다.

Temporal-Aware Delta Network(TADN) 도입

지수적 시간 감쇠 게이팅 메커니즘을 도입하여 선형 레이어 내에서 최신 행동 신호에 가중치를 부여하고 과거의 노이즈를 효과적으로 억제했다.

시퀀스 디커플링 전략 제안

사용자 행동을 장기적 안정 취향과 단기적 의도 급증으로 명시적으로 분리하여 각기 다른 병렬 브랜치에서 처리함으로써 모델의 표현력을 높였다.

산업 규모 데이터셋에서의 성능 입증

실제 이커머스 데이터셋에서 기존 SOTA 모델 대비 Hit Rate 기준 8% 이상의 성능 향상을 기록하면서도 선형적인 추론 속도를 유지했다.

핵심 아이디어 이해하기

Transformer의 Self-Attention은 모든 행동 간의 관계를 계산하므로 시퀀스 길이 N의 제곱(N²)에 비례하는 연산이 필요하다. 수천, 수만 건의 사용자 행동을 다루는 추천 시스템에서는 이 비용이 너무 커서 데이터를 잘라내거나 성능이 낮은 선형 모델을 써야만 했다.

HyTRec은 이 문제를 해결하기 위해 '하이브리드' 방식을 사용한다. 대부분의 과거 데이터는 연산량이 시퀀스 길이에 비례(O(N))하는 선형 어텐션(TADN)으로 처리하고, 아주 최근의 중요한 데이터만 정밀한 소프트맥스 어텐션으로 처리하여 전체적인 속도와 정확도를 모두 확보했다.

특히 선형 어텐션의 고질적 문제인 '최신 정보 소실'을 막기 위해 시간 감쇠(Temporal Decay) 개념을 도입했다. 오래된 행동일수록 영향력을 줄이고 최근 행동에 더 큰 게이트 값을 부여함으로써, 모델이 사용자의 현재 의도 변화를 즉각적으로 반영할 수 있게 설계했다.

방법론

전체 시퀀스 Su를 최근 K개의 행동인 S_short와 그 이전의 S_long으로 분리한다. S_short는 Multi-Head Self-Attention(MHSA)을 통해 정밀하게 분석하고, S_long은 하이브리드 어텐션 레이어 스택을 통과시킨다.

Temporal-Aware Delta Network(TADN)는 시간 감쇠 인자 τ_t = exp(-(t_current - t_behavior)/T)를 계산한다. [현재 시각과 과거 행동 시각의 차이를 감쇠 주기 T로 나누고 지수 함수를 적용하여] → [시간이 흐를수록 0에 가까워지는 값을 얻고] → [이 값이 클수록 현재 결정에 중요한 정보임을 의미한다].

생성된 τ_t를 특징 유사도와 결합하여 게이트 g_t를 만든다. [입력 특징 h_t와 단기 편차 Δh_t를 입력으로] → [시그모이드 함수와 τ_t를 곱하는 연산을 수행해] → [최종 게이트 값 g_t를 얻고] → [이를 통해 노이즈가 섞인 과거 이력보다 최신 의도를 우선시하도록 특징을 융합한다].

S_long 브랜치는 TADN 레이어를 기본 단위로 하되, 약 7:1의 비율로 소프트맥스 어텐션 레이어를 중간에 삽입한다. 이는 선형 모델의 표현력 한계를 보완하면서도 전체 연산량을 O(N) 수준으로 유지하는 핵심 전략이다.

주요 결과

Amazon Beauty, Electronics, Movies&TV 등 대규모 데이터셋에서 실험을 진행했다. Beauty 데이터셋 기준 H@500에서 0.6643을 기록하여 SASRec(0.5776)이나 HSTU(0.5838) 같은 강력한 베이스라인을 크게 상회했다.

효율성 측면에서 시퀀스 길이가 12k(1만 2천 개)일 때, 기존 HSTU 모델의 처리량(Throughput)은 급격히 감소하여 HyTRec의 19% 수준에 불과했다. 반면 HyTRec은 시퀀스 길이가 늘어나도 안정적인 선형 처리 성능을 유지했다.

Ablation Study 결과, TADN 브랜치와 단기 어텐션 브랜치를 모두 사용했을 때 성능이 가장 높았다(H@500 0.6643). TADN만 사용했을 때(0.6493)보다 단기 의도를 명시적으로 포착하는 것이 추천 정확도에 필수적임이 확인됐다.

기술 상세

HyTRec은 선형 어텐션의 효율성과 소프트맥스 어텐션의 검색 정밀도를 결합한 하이브리드 아키텍처다. O(N²)의 복잡도를 해결하기 위해 시퀀스를 장/단기로 분리하고 병렬 처리 후 융합하는 방식을 취한다.

TADN(Temporal-Aware Delta Network)은 Gated DeltaNet을 기반으로 하며, 여기에 시간적 감쇠(Temporal Decay)를 명시적으로 통합했다. 이는 선형 어텐션의 고정된 상태(Fixed-size state) 업데이트 과정에서 발생하는 정보 희석(Semantic Dilution) 문제를 해결한다.

상태 업데이트 규칙은 S_t = S_{t-1}(I - g_t β_t k_t k_tᵀ) + β_t v_t k_tᵀ로 정의된다. 여기서 g_t에 포함된 시간 인자 τ_t가 최근 상호작용의 가중치를 수학적으로 보장하며, 이는 누적 감쇠 경로(Cumulative decay path)를 통해 선형 어텐션 연산으로 공식화된다.

하이브리드 비율 최적화 실험을 통해 3:1(선형:소프트맥스) 비율이 성능과 지연 시간(Latency) 사이의 최적의 균형점임을 확인했다. 이는 순수 선형 모델보다 정확하고 순수 소프트맥스 모델보다 월등히 빠른 성능을 보여준다.

한계점

하이브리드 어텐션의 경계(장기 이력과 최근 상호작용을 나누는 기준)가 고정된 하이퍼파라미터로 설정되어 있어, 사용자별 상호작용 빈도나 의도 안정성에 따른 동적 조절 기능이 부족하다. 또한 선형 어텐션 모듈이 초장기 시퀀스 처리 시 여전히 메모리 덮어쓰기(Memory overwriting) 문제로 인한 정보 손실 가능성이 존재한다.

실무 활용

수만 건의 사용자 행동 로그를 보유한 이커머스나 콘텐츠 플랫폼에서 실시간 추천 엔진으로 즉시 활용 가능하다. 특히 연산 비용 문제로 과거 데이터를 제한적으로 사용하던 환경에서 성능 향상을 기대할 수 있다.

이커머스 플랫폼의 초장기 구매 이력 기반 개인화 추천
사용자의 갑작스러운 관심사 변화(Flash Sales 등)를 실시간으로 반영해야 하는 추천 시스템
저사양 GPU 환경에서 긴 시퀀스 데이터를 효율적으로 처리해야 하는 서빙 인프라

코드 공개 여부: 미확인

키워드

Sequential Recommendation(순차 추천)Hybrid Attention(하이브리드 어텐션)Linear Attention(선형 어텐션)Temporal-Aware Delta Network(시간 인지 델타 네트워크)Long-term Preference(장기 취향)