핵심 요약
Gated DeltaNet과 어텐션 메커니즘을 결합한 하이브리드 구조로 최대 101만 토큰의 초장문 문맥을 지원하는 9B 규모의 시각 언어 모델 사양이다.
배경
새로운 9B 파라미터 규모의 시각 언어 모델(Vision-Language Model)의 상세 기술 사양이 공개되었다. 기존의 표준적인 트랜스포머 구조를 넘어 Gated DeltaNet이라는 선형 어텐션 기법과 전통적인 어텐션 메커니즘을 혼합한 하이브리드 설계를 채택했다.
의미 / 영향
9B 규모의 모델에서 백만 토큰급 컨텍스트를 지원하는 것은 로컬 환경에서의 대규모 문서 분석 가능성을 시사한다. 특히 하이브리드 아키텍처를 통한 효율성 개선은 저사양 하드웨어에서도 고성능 추론이 가능함을 보여준다.
섹션별 상세
아키텍처의 핵심은 Gated DeltaNet과 Gated Attention의 하이브리드 구성이다. 총 32개의 레이어 중 8개 유닛마다 3개의 DeltaNet 레이어와 1개의 Attention 레이어가 배치되는 독특한 레이아웃을 가진다. 이는 연산 효율성과 장기 기억 능력을 동시에 확보하려는 시도로 해석된다. Gated DeltaNet은 선형 어텐션의 변형으로 시퀀스 길이에 따른 연산 부담을 줄여준다.
컨텍스트 윈도우 성능이 매우 강력하다. 기본적으로 262,144 토큰을 지원하며, 기술적으로 최대 1,010,000 토큰까지 확장이 가능하다. 9B라는 비교적 작은 파라미터 규모에서 백만 토큰급의 컨텍스트를 처리할 수 있다는 점이 기술적 차별점이다. 이는 긴 문서 분석이나 복잡한 대화 이력을 유지하는 데 매우 유리한 조건이다.
Multi-Token Prediction(MTP) 기법을 적용하여 학습되었다. 이는 모델이 다음 단어 하나가 아닌 여러 토큰을 동시에 예측하도록 유도하여 학습 효율과 추론 성능을 높이는 최신 기법이다. 시각 인코더(Vision Encoder)를 포함하고 있어 멀티모달 작업에도 최적화되어 있다. 9B 파라미터 규모에서 이러한 복합적인 기능을 모두 갖춘 것은 이례적이다.
실무 Takeaway
- Gated DeltaNet과 Gated Attention을 결합한 하이브리드 아키텍처를 통해 효율적인 추론을 구현했다.
- 9B 파라미터 모델임에도 불구하고 최대 101만 토큰에 달하는 초장문 컨텍스트 처리가 가능하다.
- MTP(Multi-Token Prediction) 학습을 통해 모델의 예측 능력과 전반적인 성능을 강화했다.
AI 분석 전체 내용 보기
AI 요약 · 북마크 · 개인 피드 설정 — 무료