TL;DR
깊은 트랜스포머에서 cross-layer routing의 선택성이 저하되는 문제를 라우팅 소스의 중복성으로 설명한다. Delta Attention Residuals는 deltas(vi = hi+1 − hi)를 소스로 삼아 라우팅 구별성을 회복하고, additive routing으로 잔류 스트림을 보존한다. 이로써 220M–7.6B 파라미터 규모에서 기존 Baseline 및 AttnRes 대비 PERPLEXITY를 개선하고, Delta Block은 실무 적용에 적합한 오버헤드로 성능을 유지한다.
왜 중요한가
깊은 트랜스포머에서 cross-layer routing의 선택성이 저하되는 문제를 라우팅 소스의 중복성으로 설명한다. Delta Attention Residuals는 deltas(vi = hi+1 − hi)를 소스로 삼아 라우팅 구별성을 회복하고, additive routing으로 잔류 스트림을 보존한다. 이로써 220M–7.6B 파라미터 규모에서 기존 Baseline 및 AttnRes 대비 PERPLEXITY를 개선하고, Delta Block은 실무 적용에 적합한 오버헤드로 성능을 유지한다.
핵심 기여
Routing collapse in Attention Residuals due to source redundancy
cumulative sources hi로의 라우팅에서 깊은 층으로 갈수록 max weight가 대략 0.2로 축소되어 라우팅이 거의 균일해지는 현상을 관찰하고 원인으로 소스 중복성을 제시한다.
Delta Attention Residuals: delta 소스를 활용한 additive 라우팅
per-sublayer delta vi를 소스로 사용하고 additive routing h˜l + ∑ αi→l·vi를 적용해 잔류 스트림을 보존하면서도 라우팅 구별성을 약화시키지 않는다. Delta Block의 경우 블록 단위 Delta로 확장 가능하다.
Delta Block as practical default with scalable benefits
2L 소스를 가지는 Delta AttnRes 대비 Delta Block은 소스 수를 ∝ B로 감소시키고, 1044M 규모에서 86k tok/s, 28.4GB 메모리로 Delta AttnRes보다 효율적으로 작동하며 PPL은 29.19로 Baseline 대비 우수함(0.7% 포인트 이내 차이)한다.
Fine-tuning pretrained checkpoints into Delta Attention Residuals
zero-initialization의 안전한 시작으로 pretrained 체크포인트를 손상 없이 Delta 방식으로 파인튜닝 가능하며, 8개 벤치마크에서 평균 55.6%의 정확도를 달성하여 Baseline 55.0%를 상회한다.
핵심 아이디어 이해하기
단계 1: Standard Residuals는 hl = hl−1 + vl로, 누적된 이전 상태를 그대로 유지하므로 계층 간 차이가 축소될 수 있다. 단계 2: AttnRes는 이전 레이어의 누적 상태를 softmax 주의로 가중 합산하지만, 깊이가 늘어나면 소스 간 중복이 커져 routing이 약화된다. 단계 3: Delta Attention Residuals는 vi = hi+1 − hi를 소스로 사용하고 additive routing으로 h l = h˜l + ∑ αi→l·vi를 구현한다. 단계 4: Delta Block은 delta를 블록 단위로 묶어 소스 수를 줄이고도 라우팅 샤프니스를 유지한다. 단계 5: 초기화가 안전해 pretrained 체크포인트를 disruption 없이 변환 가능하며, 실무 적용에 적합한 구성으로 확장 가능하다.
관련 Figure

Delta Block의 라우팅 패턴이 어떻게 집중되는지 core_intuition과 methodology를 보강한다.
Block Attention Residuals와 Delta Block의 라우팅 패턴 차이를 시각화한 그래프/다이어그램.
방법론
- 초기 설계: si를 누적 상태가 아닌 Delta(vi)로 정의한다. 2) depth_route 구현: softmax(w⊤RMSNorm(vi))를 사용하여 delta 소스에 대한 소프트 라우팅을 계산하고 residual에 더한다. 3) Delta Block: B-블록 델타 ∆b = hb+1 − hb를 하나의 소스로 간주하고 h˜l에 더한다. 4) 안전한 초기화: wl = 0에서 logits가 0이 되어 uniform 분布를 만들고, 작은 perturbation으로 시작한다. 5) 파인튜닝: pretrained 체크포인트에 Null Source를 두고 파인튜닝 수행; Delta Block의 경우 0에서 시작하는 identity 경로를 보존한다.
관련 Figure

Delta 라우팅의 차이점을 구조적 시각으로 보여주며 methodology를 보강한다.
Delta Block와 AttnRes의 라우팅 패턴 비교를 보여주는 도식 도표일 가능성 높음.

추가 분석을 통해 Delta Block의 비교 우위를 시각화하는 역할을 한다.
추가 라우팅 패턴 또는 보조 분석 그래프일 가능성.
주요 결과
3대 규모에서 Delta 방법이 일관되게 더 낮은 Val PPL를 기록했다. 220M: Delta AttnRes 36.83, Delta Block 37.08; 533M: Delta AttnRes 31.05, Delta Block 31.16; 1044M: Delta AttnRes 29.13, Delta Block 29.19. 8B 규모(7.57B 파라미터): Delta Block의 Val PPL 16.00, Baseline 17.43, AttnRes 18.58. Delta Block은 1044M에서 0.1% 이내 차이로 Delta AttnRes와 비슷한 성능을 보이고, Full AttnRes 대비 큰 이득을 유지한다. 8B에서 Delta Block은 AttnRes보다 6.6% 우수한 downstream 성능을 보였고, 파라미팅 비용은 Baseline 대비 큰 증가 없이 35%의 Throughput 감소를 보였다. Fine-tuning 실험에서 Delta Block은 평균 55.6%로 Baseline 55.0%를 상회하고, ARC-Easy/ARC-Challenge에서도 상위 성과를 보였다.
관련 Figure

깊은 계층에서의 라우팅 차단 문제를 시각적으로 확인해 주며, Delta Block의 샤프 라우팅이 핵심 기여임을 뒷받침한다.
Qwen3-0.6B에서 소스 재현성 분석: per-layer routing sharpness와 delta block의 routing sharpness 비교. deep layer에서 AttnRes의 max weight가 약 0.2로 감소하는 반면 Delta Block은 약 0.6를 유지한다.

Fine-tuning 실험의 효과를 시각화하며 practical_use와 results를 직접적으로 연결한다.
Fine-tuning에서 Delta Block이 Baseline/AttnRes 대비 더 빠르게 수렴하고 낮은 검증 손실을 보이는 그림.
기술 상세
2-1. Pre-Norm Transformer에서 hi+1 = hi + vi의 형태로 업데이트가 이루어지고, vi = fi(hi)이다. 2-2. AttnRes는 si를 누적 state로 사용하며 softmax(logits)로 가중치를 합친다(Replacement Routing). 2-3. Delta Attention Residuals는 vi를 소스로 사용하고 h l = h˜l + ∑ αi→l·vi( Additive Routing). 2-4. Delta Block은 B개의 레이어를 하나의 블록으로 묶어 ∆b를 소스로 사용한다. 2-5. Safe initialization은 wl=0일 때 모든 로짓이 0이 되어 routing이 uniform으로 시작하도록 한다. 2-6. Block/Per-sublayer 구분: Delta AttnRes(2L 소스)과 Delta Block(블록 소스)로 구성 가능하다.
실무 활용
Delta Block 및 Delta AttnRes는 기존 체크포인트를 disruption 없이 Delta 방식으로 변환해 파인튜닝이나 실전 적용을 가능하게 한다. 소스 수를 줄이면서도 깊은 네트워크에서 sharp routing을 유지해 성능 손실 없이 Cross-layer 연결을 향상시킨다.
- LLM에서 cross-layer routing 개선으로 학습 곡선 및 수렴 속도 향상
- 프리트레이닝 체크포인트를 Delta 기반 Residual로 재구성하여 파인튜닝 비용 절감
- 메모리 예산이 제한된 대규모 모델에서 Delta Block으로 소스 수를 줄이며 성능 유지
- 8B 규모 같은 대형 모델에서 안정적으로 Delta Block 적용으로 throughput 개선
코드 공개 여부: 공개
코드 저장소 보기키워드
코드 예제
def depth_route(sources: list[Tensor], residual: Tensor,
proj: Linear, norm: RMSNorm) -> Tensor:
"""Softmax attention over depth sources, added to residual."""
V = torch.stack(sources) # [N, B, T, D]
K = norm(V)
logits = einsum('d, n b t d -> n b t', proj.weight.squeeze(), K)
return residual + einsum('n b t, n b t d -> b t d', logits.softmax(0), V)Delta Attention Residuals의 depth_route 함수로, per-sublayer delta 소스를 softmax 주의로 가중합하여 residual에 더한다.
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.