핵심 요약
기존의 잔차 연결은 깊은 층으로 갈수록 초기 정보를 희석시키지만, Attention Residuals는 각 층이 이전 층의 정보를 선택적으로 참조하게 함으로써 성능을 크게 개선한다. 추가 비용 없이 25%의 연산 효율 향상을 달성했다.
배경
2015년 ResNet 도입 이후 표준으로 자리 잡은 잔차 연결(Residual Connection)의 한계를 지적하며, 중국의 Moonshot AI 연구진이 이를 개선한 새로운 아키텍처를 발표했다.
대상 독자
AI 연구원, ML 엔지니어, 아키텍처 최적화에 관심 있는 개발자
의미 / 영향
기존 Transformer 아키텍처의 표준 설계를 재검토함으로써 모델 크기를 키우지 않고도 성능을 높이는 새로운 최적화 경로를 제시했다. 향후 대규모 언어 모델(LLM)의 기본 아키텍처가 이 방식으로 업데이트될 가능성이 높으며, 이는 연산 자원의 효율적 사용에 기여할 것이다.
챕터별 상세
00:00
11년 동안 변하지 않은 AI의 기본 배선
ChatGPT, Claude, Gemini 등 모든 현대적 AI 모델은 2015년에 도입된 잔차 연결(Residual Connection) 아키텍처를 기반으로 설계되었다. 연구자들은 지난 10년 동안 이 설계가 최선이라고 가정하고 복제해왔으나, 중국의 Moonshot AI 팀은 이 근본적인 배선 방식에 결함이 있음을 발견했다. 이들은 기존의 단순한 정보 전달 방식을 재설계한 'Attention Residuals'라는 새로운 논문을 발표했다.
- •2015년 이후 모든 Transformer 모델은 동일한 잔차 연결 방식을 사용함
- •Moonshot AI 연구진이 기존 아키텍처의 근본적 결함을 지적함
- •새로운 연결 방식인 Attention Residuals 제안
00:52
잔차 연결의 한계: 정보의 희석
잔차 연결은 신경망의 각 층을 통과할 때 원본 데이터를 단순히 더해주는 방식으로 정보를 전달한다. 하지만 층이 수십 개에서 수백 개로 깊어지면 초기 층에서 전달된 중요한 신호가 이후 층의 노이즈에 묻히는 'Pre-norm Dilution' 현상이 발생한다. 이는 편집자들이 원고를 수정할 때 이전 모든 수정 사항을 구분 없이 쌓아두어 어떤 것이 중요한지 알 수 없게 되는 상황과 유사하다.
- •단순 합산 방식은 층이 깊어질수록 초기 신호를 희석시킴
- •Pre-norm Dilution 현상으로 인해 유용한 정보가 노이즈에 매몰됨
- •현대 LLM처럼 층이 많은 모델일수록 이 문제가 심각해짐
잔차 연결은 경사 하강법 학습 시 기울기 소실 문제를 해결하기 위해 도입된 기술이지만, 심층 모델에서는 정보의 선택적 전달이 어렵다는 단점이 있다.
02:53
RNN에서 배운 교훈과 Transformer의 진화
과거 RNN(순환 신경망)은 문장이 길어질수록 초기 단어의 정보를 잃어버리는 문제를 겪었으나, Transformer의 어텐션 메커니즘이 이를 해결했다. Moonshot AI 팀은 이 원리를 층 간 연결에도 적용했다. 텍스트의 단어들 사이에서 중요한 것을 고르듯, 모델의 깊이(depth) 방향으로도 각 층이 이전 층들 중 어떤 정보가 필요한지 선택하게 만든 것이다.
- •RNN의 순차적 정보 손실 문제를 해결한 어텐션 원리를 차용함
- •시간축이 아닌 모델의 깊이축에 어텐션을 적용함
- •각 층이 이전 모든 층의 출력 중 필요한 것만 선택적으로 참조함
03:48
Attention Residuals의 작동 원리
Attention Residuals는 각 층이 이전 모든 층의 출력을 검토하고 현재 처리에 가장 적합한 정보를 가중치를 두어 가져온다. 이는 모든 정보를 무분별하게 섞는 기존 방식과 달리, 모델이 스스로 정보의 우선순위를 정하게 한다. 결과적으로 각 층은 자신에게 필요한 맞춤형 데이터 블렌드를 실시간으로 구성하여 처리 효율을 극대화한다.
- •맹목적인 정보 합산 대신 선택적 가중치 결합 방식 채택
- •모델이 층 깊이에 따라 동적으로 정보를 선택함
- •아키텍처의 배선(Plumbing) 자체를 업그레이드한 접근법
04:43
벤치마크 결과 및 효율성 검증
5가지 크기의 모델을 대상으로 테스트한 결과, Attention Residuals를 적용한 모델은 모든 규모에서 기존 방식을 압도했다. 성능 향상 폭은 학습 연산량을 25% 추가로 투입한 것과 맞먹는 수준이었다. 특히 GPQA Diamond 벤치마크에서는 점수가 36.9점에서 44.4점으로 크게 상승했으며, 추론, 수학, 코딩 능력 전반에서 유의미한 개선이 확인됐다.
- •동일 비용으로 학습 연산량 25% 추가 투입과 같은 효과 달성
- •GPQA Diamond 등 고난도 추론 벤치마크에서 큰 폭의 성능 향상
- •모델 크기와 상관없이 일관된 성능 우위 입증
05:39
실무 적용을 위한 Block Attention Residuals
모든 층을 매번 참조하는 방식은 메모리 비용이 높기 때문에, 연구진은 8개 층을 하나의 블록으로 묶는 'Block Attention Residuals' 기법을 제안했다. 블록 내부에서는 기존 방식을 사용하고 블록 사이에서만 어텐션 연결을 적용하여 연산 오버헤드를 최소화했다. 이 방식을 통해 학습 비용 증가는 4% 미만, 추론 지연은 2% 미만으로 억제하면서도 성능 이득을 대부분 유지했다.
- •메모리 효율을 위해 층을 그룹화하는 블록 단위 어텐션 적용
- •학습 비용 4% 미만, 추론 지연 2% 미만의 낮은 오버헤드
- •실제 서비스 모델에 즉시 적용 가능한 수준의 효율성 확보
실무 Takeaway
- 단순 합산 방식의 잔차 연결 대신 어텐션을 사용하면 심층 모델에서 발생하는 정보 희석 문제를 해결하고 성능을 25% 향상시킬 수 있다.
- Block Attention Residuals 기법을 적용하면 연산 오버헤드를 2% 미만으로 유지하면서도 아키텍처 개선에 따른 성능 이득을 취할 수 있다.
- 언어나 코드와 같이 구조화된 데이터에서 Attention Residuals의 효과가 극대화되며, 이는 언어 자체가 가진 계층적 구조 때문이다.
언급된 리소스
AI 분석 전체 내용 보기
AI 요약 · 북마크 · 개인 피드 설정 — 무료