TL;DR
프리트레인된 LLM의 파라미터를 늘리지 않고도 테스트 시간 계산(TTC)을 증가시켜 추론 품질을 향상시킬 수 있다. middle 레이어를 재활용하는 구조적 분해와 게이팅, sparse 감독, 신뢰도 기반 중단으로 긴 루프를 안정적으로 학습할 수 있다. 결과적으로 다양한 백본에서 perplexity를 감소시키고 downstream 정확도를 향상시키며, 적은 학습 자원으로도 적응 효율성을 높인다.
왜 중요한가
프리트레인된 LLM의 파라미터를 늘리지 않고도 테스트 시간 계산(TTC)을 증가시켜 추론 품질을 향상시킬 수 있다. middle 레이어를 재활용하는 구조적 분해와 게이팅, sparse 감독, 신뢰도 기반 중단으로 긴 루프를 안정적으로 학습할 수 있다. 결과적으로 다양한 백본에서 perplexity를 감소시키고 downstream 정확도를 향상시키며, 적은 학습 자원으로도 적응 효율성을 높인다.
핵심 기여
Representation-guided looped post-training framework
pretrained LLM을 encoder E, reasoning block M, decoder D로 재구성하고, middle block만 루프 바디로 재사용하는 아키텍처 분해를 제안한다. 이는 staged representation dynamics에 기초하여 block decomposition을 통해 레이어 선택 문제를 해결한다.
Stable latent recursion with gating and sparse supervision
입력 의존적 decay 게이트 α(b)와 대각 preconditioner P(h)로 각 업데이트를 수렴적인 방향으로 제한한다. Random Deep Supervision으로 긴 루프에서 메모리와 학습 안정성을 확보한다.
Adaptive computation with confidence head
각 루프 단계 뒤에 신뢰도 예측 모듈(Confidence Head)을 두어 추가 루프의 필요 여부를 판단하고, 어려운 입력에 더 많은 루프를, 쉬운 입력에 적은 루프를 할당한다.
Empirical validation across backbones
Qwen3-1.7B/4B/8B, TinyLlama, Phi-4 등에서 LoopUS를 적용해 WikiText/Lambada perplexity를 감소시키고 MMLU, ARC-E/ARC-C, OBQA 등에서 평균 정확도를 향상시켰으며, adaptation 비용도 감소/효율을 보였다.
핵심 아이디어 이해하기
출발점은 pretrained Transformer의 깊이에 따른 representational geology다. 초기 레이어는 로컬 단어 처리에서 시작해 중간 레이어에서 점진적으로 추상화된 예측 표현으로 이동하고, 최종 레이어에서 출력 공간으로 급격히 전이된다. LoopUS는 middle block을 재사용 가능한 latent workspace로 보고, loop body로 삼아 M(h) 업데이트를 연속적으로 적용하되 Gate를 통해 각 업데이트의 폭을 제어한다. 학습은 random depth에서의 샘플링과 monotonicity, confidence 기반 손실로 안정적인 루프를 유도하고, inference 시 adaptive stopping으로 TTC를 효율적으로 관리한다. 결과적으로 루프는 깊이 확장 없이도 “정제적 추론”을 수행하는 제어된 성능 향상을 제공한다.
관련 Figure

히든 스테이트의 기하학적 변화가 3단계(초기 급격 변화, 중간의 안정화, 말기의 급격 변화)로 나뉜다는 근거를 시각적으로 제공한다. 이는 LoopUS의 블록 분해와 루프 바디로의 middle block 재사용의 타당성을 지지한다.
Qwen/Qwen3-1.7B에서 Layer Transition에 따른 Raw Cosine Distance를 나타내는 선형 그래프. 초기 레이어에서 큰 변화가 있고 중간에 안정된 구간, 말기에서 다시 출력 공간으로의 강한 변화가 나타난다.

루프 반복에 따른 내부 표현의 수렴성과 안정성을 시각화한다. 중간 블록 재사용이 수정된 상태에서 점진적 수렴으로의 경향이 있음을 뒷받침한다.
PCA를 이용한 히든 스테이트 트레이젝토리. 각 샘플의 h0, h1, ..., h25의 경로가 낮은 차원 공간에서 점진적으로 수렴하는 모습을 보여준다.
방법론
3단 구성: (1) Recasting: LLM을 Encoder E, Reasoning Block M, Decoder D로 분할하고 middle Block M만 루프 바디로 재사용한다. (2) Selective gating: 각 루프에서 M(h(b))와 h(b) 간의 convex 조합을 통해 h(b+1) = α(b) ⊙ M(h(b)) + (1−α(b)) ⊙ h(b)로 drift를 억제한다. α(b)는 Δδ(b)에서 추출되는 채널별 스케일로 결정되며, A를 곱해 exp를 적용해 (0,1) 사이의 값을 갖는다. (3) Random Deep Supervision: B 단의 루프를 펼치되 S 깊이만 학습하고 나머지는 detach, memory 효율성 확보. (4) Confidence Head 및 Early Stopping: q̃(b+1) = qφ(h(b+1)), q(b+1) = σ(q̃(b+1))로 루프 중지 여부를 판단한다. (5) Training Objective: L(b) = LLM + Lmono + LQ; Lmono는 예측 손실의 비약적 악화를 방지하기 위해 이전 손실 차이를 통해 완만한 감소를 유도한다. (6) KV 캐시 및 인퍼런스: 루프의 각 깊이별 KV 캐시를 독립적으로 유지해.prefix 재계산을 피하고 속도 향상을 얻는다.
관련 Figure

LoopUS의 핵심 구성요소와 데이터 흐름(전방/후방/랜덤 선택)을 직관적으로 제시하며, block decomposition과 loop 구동의 물리적 구조를 보여준다.
LoopUS 아키텍처 개요: Encoder E, Reasoning Block M, Decoder D, Selective Gate G가 포함된 재구성 그림.
주요 결과
벤치마크에서 LoopUS는 프리트레인 백본의 성능을 개선한다. 예를 들어 Qwen3-1.7B의 평균 정확도는 w/o LoopUS 53.7에서 w/ LoopUS 55.3으로 상승(+1.6). Qwen3-4B는 60.3에서 62.1로 상승(+1.8). Qwen3-8B는 63.2에서 65.4로 상승(+2.2). Phi-4 14B는 67.0에서 68.6으로 상승(+1.7). TinyLlama는 평균 성능에서 더 큰 향상을 보이며, Adapted 49.4(+6.3)로 증가한다. WikiText/Lambada perplexity 역시 감소하며, LAMBADA와 ARC 관련 지표에서도 개선이 관찰된다. 또한 KV caching을 도입하면 1024 토큰 생성 시 Qwen3-1.7B에서 1.64x, Qwen3-4B에서 2.31x, Qwen3-8B에서 2.49x의 속도 향상을 보인다. Moreover, ablation 연구는 selective gate 제거 시 drift 억제가 약화되고, encoder–decoder decomposition 제거 시 루프의 안정성이 저하되며, random deep supervision 미적용 시 최적화가 불안정해지는 것을 보인다. Monotonicity 손실은 SiLU가 가장 안정적이며 TBPTT 대비 효율이 높다.
관련 Figure

다양한 백본에서 루프의 사고(PCA space) 경로가 유사하게 수렴하는 것을 보여주며, 루프의 일반화 가능성과 안정성을 뒷받침한다.
LoopUS thinking PCA 시각화: Qwen3-4B의 여러 백본에서 thinking trace의 차이가 축소되며 contraction 경향을 보임.
기술 상세
- Architecture: Encoder E, Reasoning Block M, Decoder D로 구분하고 middle Block M을 루프 바디로 재활용한다. 2) 업데이트 규칙: h(b+1) = α(b) ⊙ M(h(b)) + (1−α(b)) ⊙ h(b)이며 α(b) = exp(∆(b) ⊙ A)로 각 채널에 대해 0~1 사이의 값을 갖는다. 3) 학습 손실: L(b) = LLM + Lmono + LQ; Lmono = SiLU(LLM(b) − LLM(b−1))로 업데이트의 질적 향상을 Soft하게 규제한다. LQ는 confidence head의 이진 cross-entropy로 적절한 중단을 지도한다. 4) Random Deep Supervision: B 루프 중 K 깊이만 supervisor로 학습하고, 나머지는 detach한다. 5) Halting: threshold qth 기반 stopping과 convergence 기반 stopping, CDF 기반 stopping을 비교한다. 6) Inference: KV 캐시를 층별 깊이별로 분리 관리하고, prefill와 decode 두 단계로 구성한다.
실무 활용
LoopUS는 pretrained Transformer에 비파라미터 증가 없이 looped latent refinement를 가능하게 하며, adaptive TTC를 통해 계산 자원을 입력 난이도에 맞춰 동적으로 조정한다.
- 추론 비용이 제약인 대화형 AI에서 긴 컨텍스트에 대한 점진적 추론 강화
- 지식 기반 질의응답에서 복잡한 추론을 필요로 하는 케이스의 정확도 향상
- 적은 학습 토크 수로도 다양한 백본에서 성능 향상 필요 시
- 인퍼런스 속도 향상과 적응적 재계산이 필요한 로그 기반 시스템
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.