핵심 요약
트랜스포머의 잔차 연결(Residual Connection)이 단순한 최적화 도구가 아니라, 깊이 축을 따라 정보를 섞는 '어텐션'과 수학적으로 동일한 역할을 수행함을 밝힌다. 이를 통해 모델 설계 시 시퀀스 방향과 깊이 방향 중 어디에 연산 자원을 집중해야 할지에 대한 명확한 하드웨어적 가이드를 제공한다.
왜 중요한가
트랜스포머의 잔차 연결(Residual Connection)이 단순한 최적화 도구가 아니라, 깊이 축을 따라 정보를 섞는 '어텐션'과 수학적으로 동일한 역할을 수행함을 밝힌다. 이를 통해 모델 설계 시 시퀀스 방향과 깊이 방향 중 어디에 연산 자원을 집중해야 할지에 대한 명확한 하드웨어적 가이드를 제공한다.
핵심 기여
잔차 스트림 이중성(Residual Stream Duality) 정의
깊이 방향의 잔차 어텐션 읽기가 시퀀스 방향의 짧은 슬라이딩 윈도우 어텐션(ShortSWA)과 수학적으로 동일한 연산임을 증명했다.
학습된 깊이별 집계 기법의 통합적 분류
ELC-BERT, DenseFormer부터 Vertical Attention까지 다양한 기법을 '깊이 축에 대한 적응형 믹싱'이라는 하나의 설계 공간으로 통합했다.
하드웨어 효율적 설계 권장안 제시
깊이 방향 어텐션은 시스템 복잡도가 높으므로, 로컬 믹싱이 목적이라면 시퀀스 축의 ShortSWA를, 숏컷 개선이 목적이라면 DDL을 사용할 것을 권장했다.
핵심 아이디어 이해하기
트랜스포머는 시퀀스(문장 길이)와 깊이(레이어 수)라는 두 개의 축으로 정보를 진화시킨다. 시퀀스 축에서는 Self-Attention이 상황에 맞게 정보를 섞지만, 깊이 축(잔차 스트림)은 보통 단순히 이전 값을 더하는 고정된 방식을 사용한다. 이 논문은 특정 토큰 위치를 고정하고 레이어 인덱스를 시퀀스처럼 취급하면, 이전 레이어들의 정보를 참조하는 '잔차 어텐션'이 시퀀스 상의 '슬라이딩 윈도우 어텐션'과 완전히 같은 연산임을 보여준다. 즉, 잔차 연결은 깊이 방향으로 적용된 특수한 형태의 어텐션이다. 이러한 이중성을 이해하면 복잡한 '깊이 방향 어텐션' 모델을 만들 필요 없이, 이미 하드웨어 최적화가 잘 된 시퀀스 방향의 로컬 어텐션(ShortSWA)만으로도 동일한 효과를 낼 수 있음을 시사한다.
방법론
잔차 스트림 이중성의 수학적 정의를 위해 L개의 블록을 가진 디코더의 히든 상태 스택 H를 (L+1) x T x d 텐서로 정의하고, 특정 토큰 t의 깊이 방향 궤적 Xt를 추출한다. 깊이 방향 윈도우 K 내의 히든 상태들 [h_(t-K+1), ..., h_t]을 입력으로 받아 Query, Key, Value 가중치 행렬을 곱한다. 이후 Softmax(QK^T / sqrt(d)) 연산을 통해 각 레이어 정보의 중요도를 결정하고, 이를 Value 값과 가중 합산하여 결과값 z_t를 얻는다. 이 값은 현재 레이어에서 과거 레이어들의 정보를 얼마나 반영할지를 결정하는 적응형 메시지가 된다. 시퀀스 축 ShortSWA는 기존 KV 캐시와 커널을 재사용할 수 있지만, 깊이 축 어텐션은 레이어 간 상태를 별도로 관리해야 하므로 파이프라인 병렬화 등에서 오버헤드가 발생함을 분석했다.
주요 결과
이론적 분석 결과, 깊이 방향 어텐션은 블록당 O(TKd), 전체 네트워크에서 O(TKLd)의 연산량을 추가하며, 전체 메모리 참조 시 O(TL^2d)까지 증가하는 것으로 나타났다. 기존 연구(ELC-BERT, DenseFormer 등)와의 비교를 통해, 단순 가중치 합산보다 어텐션 기반의 라우팅이 표현력은 높지만 시스템 복잡도를 크게 증가시킨다는 점을 확인했다. 시퀀스 축 ShortSWA는 SRAM에 로드된 청크 데이터를 그대로 활용할 수 있어, 깊이 축 어텐션보다 대규모 모델 추론에 훨씬 유리하다는 결론을 도출했다.
실무 활용
새로운 모델 아키텍처 설계 시 잔차 연결을 어떻게 개선할지에 대한 이론적 근거와 실무적 지침을 제공한다.
- 대규모 언어 모델(LLM)의 레이어 간 정보 흐름 최적화
- 하드웨어 가속기에 최적화된 로컬 어텐션 블록 설계
- 기존 잔차 연결을 대체할 Deep Delta Learning(DDL) 구현
기술 상세
Transformer^2 개념을 통해 시퀀스 축과 깊이 축 모두에 적응형 믹서(Attention)를 배치할 수 있는 설계 공간을 정의한다. 수학적으로 깊이 방향의 Truncated Residual Attention Read가 전치된 텐서 상에서의 Causal ShortSWA와 동일함을 입증했다. 시스템 복잡도 측면에서 시퀀스 축은 토큰 사이드 캐시 레이아웃을 공유하지만, 깊이 축은 레이어 인덱스 상태 경로(Layer-indexed state path)가 추가로 필요하여 파이프라인 단계 간 데이터 전송 부담이 커진다. 이에 따라 S^(l) = H^(l) + ShortSWA(Norm(H^(l)); w) 형태의 블록을 제안하여, 기존 커널을 활용하면서도 깊이 방향 어텐션의 효과를 시퀀스 축에서 얻도록 유도한다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료