핵심 요약
Titans는 어텐션을 단기 기억으로, 신경망을 장기 기억 장치로 정의하여 대규모 컨텍스트를 선형적인 비용으로 처리하며, 기존 트랜스포머와 선형 재귀 모델보다 뛰어난 성능을 보여준다.
배경
기존 트랜스포머의 어텐션 메커니즘은 정확하지만 연산 비용이 컨텍스트 길이에 따라 제곱으로 증가하는 한계가 있다.
대상 독자
AI 연구자, ML 엔지니어, 대규모 언어 모델 아키텍처에 관심 있는 전문가
의미 / 영향
Titans 아키텍처는 대규모 문서 분석이나 긴 비디오 이해와 같이 초장기 컨텍스트가 필요한 분야에서 트랜스포머의 연산 비용 문제를 해결할 수 있는 강력한 대안이 될 것이다. 특히 신경망을 메모리로 쓰는 방식은 향후 LLM의 기억 용량 확장 연구에 중요한 이정표가 될 것으로 보인다.
챕터별 상세
00:00
기존 모델의 한계와 Titans의 등장 배경
트랜스포머의 어텐션은 모든 토큰 간의 의존성을 정확히 모델링하지만 컨텍스트 길이에 따라 연산량이 제곱으로 늘어나는 문제가 있다. 반면 RNN과 같은 재귀 모델은 데이터를 고정된 크기의 은닉 상태로 압축하여 효율적이지만 정보 손실이 발생한다. Titans는 이 두 방식의 장점을 결합하여 장기 기억을 신경망 모듈로 구현함으로써 대규모 컨텍스트 처리를 가능하게 한다.
- •어텐션의 제곱 연산 비용 문제
- •재귀 모델의 고정 크기 메모리 한계
- •장기 기억을 위한 신경망 모듈 제안
05:00
선형 트랜스포머와 커널 함수의 역할
선형 트랜스포머는 소프트맥스 연산을 커널 함수로 대체하여 연산 복잡도를 선형으로 줄이려 시도한다. 하지만 소프트맥스를 정확히 근사하는 커널을 찾기 어렵고, 모든 정보를 행렬 형태의 상태에 압축하는 과정에서 성능 저하가 발생한다. Titans는 이러한 단순 압축 방식 대신 신경망 자체를 메모리로 활용하는 접근법을 취한다.
- •소프트맥스 대체를 통한 선형 복잡도 달성 시도
- •행렬 상태 압축의 정보 손실 문제
- •커널 근사의 한계점 지적
12:00
신경망 기반 장기 기억 모듈의 구조
Titans의 핵심은 신경망(MLP)을 메모리 유닛으로 사용하는 것이다. 어텐션이 단기 기억 역할을 수행하는 동안, 신경망 모듈은 과거의 컨텍스트를 암기하고 저장하는 장기 기억 역할을 한다. 이 모듈은 테스트 시점(Inference)에서도 가중치를 업데이트하며 새로운 정보를 학습하고 암기하는 '테스트 타임 트레이닝' 방식을 채택한다.
- •어텐션(단기)과 신경망(장기)의 역할 분담
- •테스트 시점 가중치 업데이트 메커니즘
- •신경망 자체를 데이터 저장소로 활용
MLP(Multi-Layer Perceptron)가 고정된 가중치가 아닌 동적인 메모리로 작동하며, 입력 쿼리에 따라 과거 정보를 인출하는 구조이다.
20:00
테스트 시점의 암기 및 업데이트 프로세스
장기 기억 모듈은 입력되는 키(Key)와 값(Value)의 연관 관계를 학습하도록 설계되었다. 새로운 토큰이 들어올 때마다 신경망의 파라미터를 그래디언트 디센트(Gradient Descent) 방식으로 업데이트하여 정보를 저장한다. 특히 '놀라움(Surprise)' 지표를 도입하여 예상치 못한 중요한 정보가 들어왔을 때 더 강하게 기억하도록 가중치를 조정한다.
- •키-값 연관 관계 학습을 통한 정보 저장
- •그래디언트 디센트 기반의 실시간 메모리 업데이트
- •중요 정보 식별을 위한 Surprise 지표 활용
메타 러닝(Meta-learning)에서 흔히 쓰이는 이너 루프(Inner-loop) 업데이트 개념이 추론 시점의 메모리 갱신에 적용되었다.
28:00
실험 결과 및 200만 컨텍스트 확장성
Titans는 언어 모델링, 상식 추론, 시계열 분석 등 다양한 태스크에서 트랜스포머와 최신 선형 재귀 모델(Mamba 등)보다 우수한 성능을 기록했다. 특히 '바늘 찾기(Needle-in-a-haystack)' 테스트에서 200만 개 이상의 컨텍스트 윈도우까지 정확도를 유지하며 확장성을 입증했다. 이는 장기 기억 모듈이 대규모 데이터를 효과적으로 유지하고 있음을 보여준다.
- •기존 SOTA 모델 대비 우수한 벤치마크 결과
- •2M 이상의 컨텍스트 윈도우 확장성 입증
- •효율적인 추론 속도와 병렬 학습 가능
실무 Takeaway
- 어텐션은 단기 기억, 신경망은 장기 기억으로 정의하는 새로운 아키텍처 패러다임이다.
- 테스트 시점의 가중치 업데이트를 통해 동적으로 정보를 암기하고 인출한다.
- 선형 복잡도를 유지하면서도 200만 개 이상의 토큰을 정확하게 처리할 수 있다.
- 기존 선형 재귀 모델이 가진 정보 압축의 한계를 신경망 메모리 구조로 극복했다.
AI 분석 전체 내용 보기
AI 요약 · 북마크 · 개인 피드 설정 — 무료