델타 어텐션 잔류 연결

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

깊은 트랜스포머에서 cross-layer routing의 선택성이 저하되는 문제를 라우팅 소스의 중복성으로 설명한다. Delta Attention Residuals는 deltas(vi = hi+1 − hi)를 소스로 삼아 라우팅 구별성을 회복하고, additive routing으로 잔류 스트림을 보존한다. 이로써 220M–7.6B 파라미터 규모에서 기존 Baseline 및 AttnRes 대비 PERPLEXITY를 개선하고, Delta Block은 실무 적용에 적합한 오버헤드로 성능을 유지한다.

왜 중요한가

깊은 트랜스포머에서 cross-layer routing의 선택성이 저하되는 문제를 라우팅 소스의 중복성으로 설명한다. Delta Attention Residuals는 deltas(vi = hi+1 − hi)를 소스로 삼아 라우팅 구별성을 회복하고, additive routing으로 잔류 스트림을 보존한다. 이로써 220M–7.6B 파라미터 규모에서 기존 Baseline 및 AttnRes 대비 PERPLEXITY를 개선하고, Delta Block은 실무 적용에 적합한 오버헤드로 성능을 유지한다.

핵심 기여

Routing collapse in Attention Residuals due to source redundancy

cumulative sources hi로의 라우팅에서 깊은 층으로 갈수록 max weight가 대략 0.2로 축소되어 라우팅이 거의 균일해지는 현상을 관찰하고 원인으로 소스 중복성을 제시한다.

Delta Attention Residuals: delta 소스를 활용한 additive 라우팅

per-sublayer delta vi를 소스로 사용하고 additive routing h˜l + ∑ αi→l·vi를 적용해 잔류 스트림을 보존하면서도 라우팅 구별성을 약화시키지 않는다. Delta Block의 경우 블록 단위 Delta로 확장 가능하다.

Delta Block as practical default with scalable benefits

2L 소스를 가지는 Delta AttnRes 대비 Delta Block은 소스 수를 ∝ B로 감소시키고, 1044M 규모에서 86k tok/s, 28.4GB 메모리로 Delta AttnRes보다 효율적으로 작동하며 PPL은 29.19로 Baseline 대비 우수함(0.7% 포인트 이내 차이)한다.

Fine-tuning pretrained checkpoints into Delta Attention Residuals

zero-initialization의 안전한 시작으로 pretrained 체크포인트를 손상 없이 Delta 방식으로 파인튜닝 가능하며, 8개 벤치마크에서 평균 55.6%의 정확도를 달성하여 Baseline 55.0%를 상회한다.

핵심 아이디어 이해하기

단계 1: Standard Residuals는 hl = hl−1 + vl로, 누적된 이전 상태를 그대로 유지하므로 계층 간 차이가 축소될 수 있다. 단계 2: AttnRes는 이전 레이어의 누적 상태를 softmax 주의로 가중 합산하지만, 깊이가 늘어나면 소스 간 중복이 커져 routing이 약화된다. 단계 3: Delta Attention Residuals는 vi = hi+1 − hi를 소스로 사용하고 additive routing으로 h l = h˜l + ∑ αi→l·vi를 구현한다. 단계 4: Delta Block은 delta를 블록 단위로 묶어 소스 수를 줄이고도 라우팅 샤프니스를 유지한다. 단계 5: 초기화가 안전해 pretrained 체크포인트를 disruption 없이 변환 가능하며, 실무 적용에 적합한 구성으로 확장 가능하다.

방법론

초기 설계: si를 누적 상태가 아닌 Delta(vi)로 정의한다. 2) depth_route 구현: softmax(w⊤RMSNorm(vi))를 사용하여 delta 소스에 대한 소프트 라우팅을 계산하고 residual에 더한다. 3) Delta Block: B-블록 델타 ∆b = hb+1 − hb를 하나의 소스로 간주하고 h˜l에 더한다. 4) 안전한 초기화: wl = 0에서 logits가 0이 되어 uniform 분布를 만들고, 작은 perturbation으로 시작한다. 5) 파인튜닝: pretrained 체크포인트에 Null Source를 두고 파인튜닝 수행; Delta Block의 경우 0에서 시작하는 identity 경로를 보존한다.

주요 결과

3대 규모에서 Delta 방법이 일관되게 더 낮은 Val PPL를 기록했다. 220M: Delta AttnRes 36.83, Delta Block 37.08; 533M: Delta AttnRes 31.05, Delta Block 31.16; 1044M: Delta AttnRes 29.13, Delta Block 29.19. 8B 규모(7.57B 파라미터): Delta Block의 Val PPL 16.00, Baseline 17.43, AttnRes 18.58. Delta Block은 1044M에서 0.1% 이내 차이로 Delta AttnRes와 비슷한 성능을 보이고, Full AttnRes 대비 큰 이득을 유지한다. 8B에서 Delta Block은 AttnRes보다 6.6% 우수한 downstream 성능을 보였고, 파라미팅 비용은 Baseline 대비 큰 증가 없이 35%의 Throughput 감소를 보였다. Fine-tuning 실험에서 Delta Block은 평균 55.6%로 Baseline 55.0%를 상회하고, ARC-Easy/ARC-Challenge에서도 상위 성과를 보였다.

기술 상세

2-1. Pre-Norm Transformer에서 hi+1 = hi + vi의 형태로 업데이트가 이루어지고, vi = fi(hi)이다. 2-2. AttnRes는 si를 누적 state로 사용하며 softmax(logits)로 가중치를 합친다(Replacement Routing). 2-3. Delta Attention Residuals는 vi를 소스로 사용하고 h l = h˜l + ∑ αi→l·vi( Additive Routing). 2-4. Delta Block은 B개의 레이어를 하나의 블록으로 묶어 ∆b를 소스로 사용한다. 2-5. Safe initialization은 wl=0일 때 모든 로짓이 0이 되어 routing이 uniform으로 시작하도록 한다. 2-6. Block/Per-sublayer 구분: Delta AttnRes(2L 소스)과 Delta Block(블록 소스)로 구성 가능하다.

실무 활용

Delta Block 및 Delta AttnRes는 기존 체크포인트를 disruption 없이 Delta 방식으로 변환해 파인튜닝이나 실전 적용을 가능하게 한다. 소스 수를 줄이면서도 깊은 네트워크에서 sharp routing을 유지해 성능 손실 없이 Cross-layer 연결을 향상시킨다.

LLM에서 cross-layer routing 개선으로 학습 곡선 및 수렴 속도 향상
프리트레이닝 체크포인트를 Delta 기반 Residual로 재구성하여 파인튜닝 비용 절감
메모리 예산이 제한된 대규모 모델에서 Delta Block으로 소스 수를 줄이며 성능 유지
8B 규모 같은 대형 모델에서 안정적으로 Delta Block 적용으로 throughput 개선

코드 공개 여부: 공개

코드 저장소 보기

키워드

Delta Attention Residualscross-layer routingdelta representationsDelta Blocksoftmax attentionresidual preservationpretrained checkpointsfine-tuning

코드 예제

python

def depth_route(sources: list[Tensor], residual: Tensor,
    proj: Linear, norm: RMSNorm) -> Tensor:
    """Softmax attention over depth sources, added to residual."""
    V = torch.stack(sources) # [N, B, T, D]
    K = norm(V)
    logits = einsum('d, n b t d -> n b t', proj.weight.squeeze(), K)
    return residual + einsum('n b t, n b t d -> b t d', logits.softmax(0), V)

Delta Attention Residuals의 depth_route 함수로, per-sublayer delta 소스를 softmax 주의로 가중합하여 residual에 더한다.