핵심 요약
기존의 클릭률(CTR) 예측 모델은 성능을 높이기 위해 파라미터 수를 늘려야 했고, 이는 산업 현장의 엄격한 지연 시간 제약과 충돌했다. LoopCTR은 동일한 모델 레이어를 반복 재사용하는 루프 스케일링 방식을 통해 파라미터 증가 없이도 연산량을 조절하며 성능을 극대화한다. 특히 학습 시에는 여러 번 반복하지만 추론 시에는 단 한 번의 연산만으로도 기존 모델들을 압도하는 효율성을 보여준다.
왜 중요한가
기존의 클릭률(CTR) 예측 모델은 성능을 높이기 위해 파라미터 수를 늘려야 했고, 이는 산업 현장의 엄격한 지연 시간 제약과 충돌했다. LoopCTR은 동일한 모델 레이어를 반복 재사용하는 루프 스케일링 방식을 통해 파라미터 증가 없이도 연산량을 조절하며 성능을 극대화한다. 특히 학습 시에는 여러 번 반복하지만 추론 시에는 단 한 번의 연산만으로도 기존 모델들을 압도하는 효율성을 보여준다.
핵심 기여
루프 스케일링(Loop Scaling) 패러다임 도입
파라미터를 추가로 쌓는 대신 공유된 모델 레이어를 재귀적으로 재사용하여 학습 시 연산량을 늘리는 방식을 제안한다. 이를 통해 파라미터 증가와 연산량 증가를 분리하여 파라미터 효율성을 극대화한다.
샌드위치 아키텍처 및 HCR/MoE 결합
Entry Block, Loop Block, Exit Block으로 구성된 구조를 채택했다. Loop Block에는 Hyper-Connected Residuals(HCR)와 Mixture-of-Experts(MoE)를 적용하여 반복 연산 시의 표현력 병목 현상을 해결했다.
프로세스 감독(Process Supervision)을 통한 제로 루프 추론
모든 루프 깊이에서 감독 학습을 수행하여 반복 연산의 이점을 공유 파라미터에 내재화했다. 결과적으로 추론 시 루프를 돌지 않는 단일 패스(Zero-loop)만으로도 SOTA 성능을 달성했다.
핵심 아이디어 이해하기
기존의 Transformer 기반 CTR 모델은 더 깊게 쌓거나(Depth), 더 넓게 만들거나(Width), 입력 길이를 늘리는(Input) 방식으로 성능을 높였다. 하지만 이는 모두 파라미터 수와 메모리 사용량의 급격한 증가를 동반한다. LoopCTR은 '동일한 지식을 여러 번 되새김질하면 더 깊은 이해가 가능하다'는 직관에서 출발하여, 새로운 레이어를 추가하는 대신 기존 레이어를 반복 통과시키는 재귀적 구조를 선택했다.
단순한 반복은 정보의 정체나 과적합을 유발할 수 있으므로, 입력 데이터에 따라 잔차 연결(Residual Connection)의 비중을 동적으로 조절하는 Hyper-Connected Residuals를 도입했다. 이는 매 반복마다 모델이 데이터의 서로 다른 측면에 집중할 수 있게 돕는다. 또한 MoE를 통해 파라미터 용량은 키우되 실제 연산에 참여하는 전문가(Expert)는 소수로 유지하여 효율성을 챙겼다.
가장 핵심적인 변화는 학습 과정에서 발생한다. 모델이 매 반복 단계마다 정답을 맞히도록 강제하는 프로세스 감독을 적용함으로써, 반복 연산을 통해 얻을 수 있는 고차원적인 특징들을 모델 파라미터 자체가 미리 학습하게 만든다. 이 덕분에 실제 서비스 환경에서는 반복 없이 한 번만 계산해도 마치 여러 번 고민한 것과 같은 고품질의 예측 결과를 얻을 수 있다.
방법론
LoopCTR은 세 가지 주요 블록으로 구성된 샌드위치 구조를 가진다. Entry Block은 이질적인 특징들을 통합된 표현 공간으로 인코딩하며, Loop Block은 공유 파라미터를 L번 반복 적용하여 표현을 정제한다. 마지막으로 Exit Block은 정제된 표현을 기반으로 최종 클릭 확률을 예측한다.
Hyper-Connected Residuals(HCR)는 표준 잔차 연결인 h + f(h)를 n개의 병렬 스트림으로 확장한다. 입력 상태 H에 대해 [H와 가중치 행렬 Am을 곱하여] → [단일 입력으로 융합한 뒤] → [서브레이어 T를 통과시키고] → [다시 B 행렬을 통해 분산시킨다]. 이 과정에서 Ar 행렬이 스트림 간의 혼합을 결정하며, 모든 계수는 입력 데이터에 따라 동적으로 변하는 tanh 게이팅 메커니즘을 통해 조절된다.
학습 목적 함수는 멀티 뎁스 프로세스 감독을 사용한다. 각 루프 깊이 l에서 나온 예측값 y_l과 실제 정답 y 사이의 Binary Cross-Entropy(BCE) 손실을 계산한다. [l=0부터 L까지의 모든 BCE 손실을 합산하여] → [전체 루프 수 L+1로 나누어] → [평균 손실을 구한다]. 이 방식은 모델이 어떤 단계에서도 유의미한 예측을 할 수 있도록 유도하며, 추론 시 루프 생략을 가능케 한다.
관련 Figure

샌드위치 구조(Entry, Loop, Exit)를 시각화하며, Loop Block에서 파라미터가 공유되는 방식과 HCR이 다중 스트림을 처리하는 메커니즘을 보여준다. 이 구조가 어떻게 연산량과 파라미터 수를 분리하는지 설명하는 핵심 근거가 된다.
LoopCTR의 전체 아키텍처와 핵심 모듈인 MoE 및 HCR의 상세 구조도
주요 결과
Amazon, TaobaoAds, KuaiVideo 및 대규모 산업 데이터셋(InHouse)에서 실험을 진행했다. LoopCTR(0/3), 즉 학습 시 3번 루프를 돌고 추론 시 루프를 돌지 않는 모델이 모든 벤치마크에서 기존 SOTA 모델인 OneTrans, HSTU 등을 능가했다. 특히 InHouse 데이터셋에서 HSTU 대비 FLOPs는 약 160배 적고 지연 시간은 84배 낮은 9.26ms를 기록하면서도 더 높은 AUC를 달성했다.
Ablation Study 결과, HCR과 MoE가 성능 향상에 가장 크게 기여하는 것으로 나타났다. Amazon 데이터셋에서는 HCR 제거 시 AUC가 0.0201 감소했으며, KuaiVideo에서는 MoE 제거 시 0.0060의 성능 하락이 관찰되었다. 이는 데이터 특성에 따라 적응형 잔차 연결과 확장된 파라미터 용량이 상호 보완적으로 작동함을 시사한다.
관련 Figure

학습 루프(L)가 많아질수록 성능이 향상되는 경향과, 추론 루프(i)가 0이나 1일 때 이미 성능이 포화되는 양상을 보여준다. 하단의 델타 AUC 차트는 오라클 성능과의 격차를 나타내며 향후 개선 가능성을 시사한다.
4개 데이터셋에 대한 루프 스케일링 분석 결과 그래프

HCR, MoE, 프로세스 감독(PS), 이질적 특징 투영(MP) 각각이 제거되었을 때의 성능 하락을 보여준다. 데이터셋의 특성에 따라 각 모듈의 중요도가 다름을 입증하며 모델 설계의 타당성을 뒷받침한다.
Amazon 및 KuaiVideo 데이터셋에서의 구성 요소별 Ablation Study 결과
기술 상세
LoopCTR의 핵심은 파라미터 공유를 통한 정규화 효과와 반복 연산을 통한 계산 깊이의 확보다. 공유 파라미터는 모든 반복 단계에서 유용한 표현을 생성해야 하므로, 특정 층이 데이터에 과적합되는 것을 방지하는 강력한 유도 편향(Inductive Bias)으로 작용한다. 이는 데이터가 희소한 추천 도메인에서 특히 유효하다.
Loop Block의 Prefix Attention은 비대칭 마스킹을 사용하여 시퀀스 토큰은 자신들끼리만 참조하고, 글로벌 토큰은 전체 입력을 참조하게 설계되었다. 이는 시퀀스 토큰의 KV 캐싱을 가능하게 하여, 동일 사용자의 여러 후보 아이템 평가 시 중복 계산을 획기적으로 줄인다. 서빙 시 시퀀스 상태는 한 번만 계산하고 모든 후보 아이템이 이를 공유함으로써 연산 비용을 C_user + N * C_item 수준으로 최적화했다.
오라클 분석(Oracle Analysis)에 따르면, 샘플별로 최적의 루프 횟수를 선택할 경우 현재 결과보다 AUC가 0.02~0.04 더 향상될 여지가 있음이 밝혀졌다. 이는 향후 입력 데이터의 난이도에 따라 연산량을 동적으로 할당하는 적응형 추론(Adaptive Inference) 연구의 가능성을 열어준다.
한계점
현재 모델은 고정된 루프 횟수로 학습 및 추론을 수행하며, 오라클 분석에서 제시된 샘플별 최적 루프 할당(Adaptive Inference)을 실시간으로 구현하는 구체적인 전략은 아직 완성되지 않았다.
실무 활용
지연 시간에 극도로 민감한 실시간 추천 시스템 환경에서 파라미터 효율성과 예측 정확도를 동시에 잡을 수 있는 실용적인 솔루션이다.
- 수천 개의 후보 아이템을 수 밀리초 내에 랭킹해야 하는 이커머스 추천 서버
- 메모리 자원이 제한된 모바일 기기 내 온디바이스 CTR 예측 모델
- 사용자의 장기 행동 시퀀스를 효율적으로 처리해야 하는 동영상 플랫폼 피드 구성
코드 공개 여부: 비공개
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.