2026년 봄 오픈 웨이트 LLM 아키텍처 분석: 10가지 주요 모델 비교

핵심 요약

2026년 1월과 2월 사이 오픈 웨이트(Open-weight) LLM 시장은 전례 없는 기술적 진보를 보여주었습니다. 이 글은 Arcee AI의 Trinity Large부터 Cohere의 Tiny Aya까지 10가지 주요 모델의 아키텍처를 심층 비교합니다. 특히 Mixture-of-Experts(MoE), Multi-head Latent Attention(MLA), 그리고 Gated DeltaNet과 같은 하이브리드 어텐션 기법이 주류로 자리 잡으며 추론 효율성과 성능을 동시에 확보하려는 업계의 노력을 조명합니다. 모델 성능은 아키텍처 자체보다 데이터 품질과 학습 레시피에 크게 의존하지만 기술적 최적화는 여전히 핵심적인 차별화 요소입니다.

배경

Transformer Architecture, Mixture-of-Experts (MoE), Attention Mechanisms, LLM Training Basics

대상 독자

LLM 아키텍처 설계자 및 AI 연구원

의미 / 영향

오픈 웨이트 모델들이 폐쇄형 모델의 성능을 빠르게 추격하고 있으며 특히 코딩과 다국어 지원 그리고 추론 효율성 측면에서 독자적인 기술 혁신을 주도하고 있습니다.

섹션별 상세

Arcee AI의 Trinity Large는 400B 규모의 MoE 모델로 슬라이딩 윈도우 어텐션(Sliding Window Attention)과 QK-Norm을 적용하여 긴 컨텍스트 처리와 학습 안정성을 확보했습니다. 특히 3:1 비율의 로컬/글로벌 어텐션 레이어 교차 배치와 게이트 어텐션(Gated Attention)을 통해 긴 시퀀스 일반화 성능을 높였습니다. 활성 파라미터는 13B 수준으로 유지하여 거대 모델임에도 효율적인 추론이 가능하도록 설계되었습니다.

Moonshot AI의 Kimi K2.5는 1조 파라미터 규모의 멀티모달 모델로 DeepSeek V3 아키텍처를 기반으로 15조 개의 토큰을 학습했습니다. 초기 융합(Early Fusion) 전략을 사용하여 학습 초기부터 시각 토큰을 텍스트와 함께 처리함으로써 시각적 추론 능력을 극대화했습니다. 벤치마크 결과 당시 주요 상용 모델들과 대등한 성능을 보여주며 오픈 웨이트 모델의 한계를 넓혔습니다.

StepFun의 Step 3.5 Flash는 196B 규모임에도 불구하고 Multi-Token Prediction(MTP) 기술을 학습과 추론 모두에 적용하여 초당 100토큰의 높은 처리량을 달성했습니다. 이는 DeepSeek V3.2보다 3배 이상 빠른 속도로 효율적인 추론을 위한 MTP의 실용적 가치를 증명했습니다. 게이트 어텐션을 병행 사용하여 128k 컨텍스트 길이에서도 안정적인 성능을 유지합니다.

Qwen3-Coder-Next는 Gated DeltaNet과 Gated Attention을 결합한 하이브리드 구조를 도입하여 262k 토큰의 긴 컨텍스트를 메모리 효율적으로 처리합니다. 이 모델은 80B 규모임에도 불구하고 코딩 벤치마크에서 Claude 4.5 수준의 성능을 보여주며 하이브리드 어텐션의 잠재력을 입증했습니다. DeltaNet 블록은 선형 시간 복잡도를 가져 KV 캐시 성장을 억제하는 데 핵심적인 역할을 합니다.

z.AI의 GLM-5는 744B 규모로 확장하면서 DeepSeek의 MLA(Multi-head Latent Attention)와 Sparse Attention을 전격 도입했습니다. 이를 통해 파라미터 수는 늘리면서도 KV 캐시 크기를 줄여 긴 컨텍스트 환경에서의 추론 비용을 획기적으로 최적화했습니다. 이전 모델인 GLM-4.7 대비 파라미터는 2배 늘었으나 활성 파라미터는 40B 수준으로 억제하여 효율성을 챙겼습니다.

Cohere의 Tiny Aya는 3.35B 소형 모델로 병렬 트랜스포머 블록(Parallel Transformer Block)을 사용하여 어텐션과 MLP 연산을 동시에 수행합니다. 이러한 구조적 최적화는 직렬 의존성을 줄여 연산 처리량을 높이는 데 기여합니다. 강력한 다국어 학습 데이터를 통해 소형 모델 시장에서 독보적인 성능을 확보했으며 비상업적 연구 용도로 최적화되었습니다.

이미지 분석

Diagram
MoE 레이어와 GQA 및 SWA 구조를 상세히 보여주는 아키텍처 설계도입니다. 400B 모델의 전체적인 레이어 구성과 활성 파라미터 계산 방식을 시각적으로 설명합니다.
Arcee AI Trinity Large 아키텍처 다이어그램

Diagram
모든 토큰을 참조하는 글로벌 어텐션과 특정 윈도우 내 토큰만 참조하는 로컬 어텐션의 차이를 마스크 행렬로 시각화합니다. SWA가 긴 시퀀스에서 연산량을 어떻게 줄이는지 보여줍니다.
일반 어텐션과 슬라이딩 윈도우 어텐션(SWA) 비교

Screenshot
PyTorch 코드로 구현된 어텐션 게이팅 방식을 보여줍니다. 표준 스케일드 닷 프로덕트 어텐션 이후에 시그모이드 게이트를 적용하여 학습 안정성을 높이는 과정을 설명합니다.
Trinity의 Gating 메커니즘 코드 스니펫

Chart
Kimi K2.5 모델이 GPT-5.2나 Claude 4.5 등 주요 상용 모델들과 비교하여 에이전트 및 코딩 작업에서 대등한 성능을 보임을 증명하는 데이터입니다.
Kimi K2.5 벤치마크 결과 차트

Diagram
다음 토큰 하나가 아닌 여러 개의 미래 토큰을 동시에 예측하는 구조를 설명합니다. 이 방식이 학습 신호를 강화하고 추론 속도를 어떻게 향상시키는지 시각화합니다.
Multi-Token Prediction(MTP) 개념도

실무 Takeaway

추론 효율성을 위해 MLA(Multi-head Latent Attention)와 Gated DeltaNet 같은 하이브리드 어텐션 도입이 가속화되고 있습니다.
Multi-Token Prediction(MTP)은 이제 학습 속도 향상뿐만 아니라 실시간 추론 속도 개선을 위한 핵심 기술로 채택되고 있습니다.
소형 모델(3B-4B)에서도 병렬 블록 구조나 가중치 공유 최적화를 통해 온디바이스 성능을 극대화하는 추세입니다.

언급된 리소스

논문Arcee AI Trinity Technical Report

문서Kimi K2.5 Technical Report

문서Step 3.5 Flash Technical Report