2026년 초 오픈 웨이트 LLM 아키텍처 분석: 10가지 주요 모델 비교

핵심 요약

2026년 초 오픈 웨이트 LLM 시장은 아키텍처 혁신을 통해 폐쇄형 모델과의 간극을 좁히고 있습니다. 이 분석은 Arcee AI의 Trinity Large부터 Cohere의 Tiny Aya까지 최근 출시된 10개 모델의 기술적 세부 사항을 대조합니다. 특히 Mixture-of-Experts(MoE)의 세분화, Gated DeltaNet 기반의 하이브리드 어텐션 도입, Multi-Token Prediction(MTP)을 통한 효율성 개선이 핵심 트렌드로 확인됩니다. 모델 성능은 아키텍처 설계보다 데이터 품질과 학습 레시피에 크게 의존하는 경향을 보이며, 개발자들은 추론 비용 절감을 위한 다양한 기술적 변주를 시도하고 있습니다.

배경

Transformer 아키텍처, Mixture of Experts(MoE) 원리, Attention 메커니즘(GQA, SWA), LLM 벤치마크 지표 이해

대상 독자

LLM 아키텍처 설계자, AI 연구원 및 고성능 모델 배포를 담당하는 엔지니어

의미 / 영향

오픈 웨이트 모델들이 아키텍처 혁신을 통해 폐쇄형 모델의 성능 임계치에 도달하고 있으며, 특히 하이브리드 어텐션 기술의 발전으로 롱 컨텍스트 처리와 온디바이스 추론 효율성이 비약적으로 향상될 것입니다.

섹션별 상세

Arcee AI Trinity Large(400B)는 400B 파라미터 규모의 MoE 모델로, 13B개의 활성 파라미터를 사용하며 Sliding Window Attention(SWA)을 3:1 비율로 적용했습니다. QK-Norm과 Gated Attention을 도입하여 학습 안정성을 높였으며, 초기 레이어에서는 MoE 대신 밀집(Dense) FFN을 사용하여 성능을 최적화했습니다. 특히 SWA의 윈도우 크기를 4096으로 설정하여 256k 토큰에 달하는 긴 컨텍스트 처리 능력을 확보한 점이 특징입니다.

Moonshot AI Kimi K2.5(1T)는 1조 파라미터 규모의 멀티모달 모델로, DeepSeek V3 아키텍처를 기반으로 확장되었습니다. 15조 개의 시각-텍스트 혼합 토큰을 사용하여 조기 융합(Early Fusion) 방식으로 학습되었으며, 벤치마크 결과 당시 주요 폐쇄형 모델들과 대등한 성능을 기록했습니다. 연구 결과에 따르면 학습 초기 단계에서 적은 수의 시각 토큰을 주입하는 것이 나중에 대량으로 주입하는 것보다 지식 습득과 추론 능력 향상에 유리합니다.

StepFun Step 3.5 Flash(196B)는 196B 규모임에도 671B 규모의 DeepSeek V3.2보다 높은 벤치마크 성능과 100 tokens/sec의 빠른 처리 속도를 달성했습니다. 이러한 고성능의 비결은 Gated Attention과 Multi-Token Prediction(MTP-3) 기술을 학습뿐만 아니라 추론 단계에서도 적극적으로 활용한 데 있습니다. 11B개의 활성 파라미터만으로도 효율적인 연산이 가능하도록 설계되어 긴 컨텍스트 환경에서 높은 처리량을 유지합니다.

Qwen3-Coder-Next(80B)는 Gated DeltaNet과 Gated Attention을 3:1 비율로 결합한 하이브리드 어텐션 메커니즘을 도입하여 코딩 작업에서 탁월한 성과를 보였습니다. 이 구조는 표준 어텐션의 정밀한 정보 검색 능력과 DeltaNet의 선형적 메모리 효율성을 동시에 취하여 262k 토큰의 긴 컨텍스트를 적은 메모리로 처리합니다. 80B 규모임에도 Claude Sonnet 4.5 수준의 SWE-Bench Pro 성능을 기록하며 소형 모델의 가능성을 증명했습니다.

z.AI GLM-5(744B)는 DeepSeek의 Multi-head Latent Attention(MLA)과 Sparse Attention을 채택하여 추론 비용을 획기적으로 절감한 플래그십 모델입니다. 이전 모델인 GLM-4.7보다 파라미터 수를 2배 이상 늘려 744B 규모에 도달했으며, 전문가 수를 256개로 확장하여 모델 용량을 키웠습니다. 레이어 깊이를 줄이는 대신 너비를 확장하는 설계를 통해 병렬 연산 효율을 높였고, GPT-5.2급의 성능 지표를 확보했습니다.

Cohere Tiny Aya(3.35B)는 3B 파라미터 급에서 가장 강력한 다국어 성능을 목표로 설계된 소형 모델입니다. 병렬 트랜스포머 블록(Parallel Transformer Block)을 사용하여 어텐션과 MLP 연산을 동시에 수행함으로써 계산 처리량을 최적화했습니다. 학습 안정성을 위해 흔히 사용되는 QK-Norm을 롱 컨텍스트 성능 저하 방지를 위해 의도적으로 제거하는 등 실무적인 최적화 결정을 내린 점이 돋보입니다.

이미지 분석

Diagram
MoE 레이어, GQA 및 SWA가 결합된 구조를 시각화합니다. 임베딩 차원 3072와 256k 컨텍스트 지원 등 구체적인 하이퍼파라미터 정보를 제공합니다.
Trinity Large 모델의 전체 아키텍처 다이어그램

Diagram
비슷한 규모의 두 모델 간 RMSNorm 배치와 레이어 수 차이를 대조합니다. Trinity가 더 복잡한 어텐션 메커니즘을 사용함을 보여줍니다.
Trinity Large와 GLM-4.5 아키텍처 비교

Diagram
SWA가 특정 윈도우 내의 토큰에만 집중하여 연산 복잡도를 O(n^2)에서 O(n*t)로 줄이는 원리를 행렬 형태로 명확히 설명합니다.
일반 어텐션 마스크와 슬라이딩 윈도우 어텐션 마스크 비교

Screenshot
QK-Norm 적용 후 표준 어텐션 결과에 시그모이드 게이팅을 수행하는 과정을 PyTorch 코드로 보여주어 기술적 이해를 돕습니다.
Trinity Large의 Gated Attention 구현 코드 스니펫

Chart
학습 초기(Early)에 적은 비율의 시각 토큰을 노출하는 것이 지식 및 추론 벤치마크에서 가장 좋은 결과를 냄을 수치로 증명합니다.
시각 토큰 주입 시점 및 비율에 따른 성능 비교 표

실무 Takeaway

추론 효율성 중심의 설계: MLA, Sparse Attention, Gated DeltaNet 등 선형 시간 복잡도를 지향하는 어텐션 변형 기법들이 대형 모델의 표준으로 자리 잡고 있습니다.
MoE 구조의 고도화: DeepSeek 스타일의 세분화된 전문가 구조와 공유 전문가(Shared Expert) 활용이 모델 규모와 상관없이 성능 향상의 핵심 요소로 작용합니다.
멀티 토큰 예측(MTP)의 실용화: 학습 가속화를 넘어 추론 속도 개선을 위해 MTP를 도입하는 사례가 늘어나며 실시간 서비스 적합성이 높아지고 있습니다.

언급된 리소스

GitHubArcee AI Trinity Technical Report

논문Kimi K2.5 Technical Report

GitHubTiny Aya Implementation from Scratch