2026년 초 오픈 웨이트 LLM 아키텍처 총정리: 10가지 주요 모델 분석

핵심 요약

최근 오픈 웨이트 LLM 시장은 모델 크기의 확장과 효율적인 아키텍처 도입이라는 두 가지 축으로 빠르게 발전하고 있습니다. 이 글은 2026년 초에 출시된 Arcee AI의 Trinity Large부터 Cohere의 Tiny Aya까지 10가지 주요 모델의 구조적 특징과 벤치마크 성능을 상세히 비교합니다. 특히 Mixture-of-Experts(MoE)의 고도화, 선형 어텐션과 표준 어텐션을 결합한 하이브리드 구조, 그리고 추론 효율을 극대화하는 기술들이 어떻게 적용되고 있는지 설명합니다. 결과적으로 모델 성능은 아키텍처 자체보다 데이터 품질과 학습 레시피에 크게 의존하지만 효율적인 아키텍처 설계가 실질적인 서비스 구현의 핵심임을 강조합니다.

배경

Transformer 아키텍처에 대한 심화 지식, Mixture-of-Experts(MoE) 개념, Attention Mechanism(GQA, SWA)의 이해

대상 독자

LLM 아키텍처 설계자 및 오픈 소스 모델을 프로덕션에 도입하려는 머신러닝 엔지니어

의미 / 영향

오픈 웨이트 모델들이 효율적인 아키텍처 도입을 통해 폐쇄형 모델의 성능을 빠르게 추격하고 있습니다. 특히 하이브리드 어텐션과 MLA 기술의 확산은 긴 컨텍스트 처리 비용을 획기적으로 낮춰 기업들이 고성능 LLM을 더 경제적으로 운영할 수 있게 합니다.

섹션별 상세

Arcee AI Trinity Large(400B)는 Gemma 3와 유사하게 슬라이딩 윈도우 어텐션(Sliding Window Attention)과 글로벌 어텐션을 3:1 비율로 혼합하여 사용합니다. QK-Norm과 Gated Attention을 도입하여 학습 안정성을 높였으며 256k의 긴 컨텍스트를 지원하면서도 13B의 활성 파라미터만으로 효율적인 추론이 가능하도록 설계되었습니다.

Kimi K2.5는 DeepSeek V3 아키텍처를 1조(1T) 파라미터 규모로 확장한 모델로 15조 개의 텍스트 및 시각 토큰을 학습한 멀티모달 모델입니다. 학습 초기 단계부터 시각 토큰을 함께 주입하는 얼리 퓨전(Early Fusion) 방식을 채택하여 멀티모달 성능을 극대화했으며 기존 폐쇄형 모델들과 대등한 성능을 보여줍니다.

Step 3.5 Flash(196B)는 DeepSeek V3.2보다 3배 작지만 더 높은 벤치마크 성능과 초당 100토큰의 빠른 처리 속도를 제공합니다. 이는 학습과 추론 모두에서 3개의 추가 토큰을 동시에 예측하는 멀티 토큰 예측(Multi-Token Prediction, MTP-3) 기술을 적용한 결과로 데이터 효율성과 추론 속도를 동시에 확보한 사례입니다.

코딩 특화 모델인 Qwen3-Coder-Next는 표준 어텐션의 한계를 극복하기 위해 Gated DeltaNet과 Gated Attention을 3:1 비율로 결합했습니다. 이 하이브리드 구조는 메모리 사용량을 획기적으로 줄여 262k 토큰의 긴 컨텍스트를 네이티브로 지원하며 훨씬 큰 모델인 DeepSeek V3.2나 Kimi K2.5를 코딩 벤치마크에서 능가합니다.

z.AI의 플래그십인 GLM-5(744B)는 전문가(Expert) 수를 256개로 늘리고 DeepSeek의 Multi-head Latent Attention(MLA) 및 Sparse Attention을 도입했습니다. 이러한 변화는 긴 컨텍스트 처리 시 추론 비용을 절감하기 위한 것이며 실제 벤치마크에서 GPT-5.2나 Claude 4.5 수준의 성능에 도달한 것으로 나타났습니다.

Ant Group의 Ling 2.5(1T)는 Qwen과 유사한 하이브리드 구조를 갖추되 Gated DeltaNet 대신 더 단순한 재귀적 선형 어텐션인 Lightning Attention을 사용합니다. 이를 통해 동일한 크기의 Kimi K2 대비 32k 컨텍스트에서 약 3.5배 높은 처리량을 달성하며 긴 문맥 처리에서의 압도적인 효율성을 증명했습니다.

Cohere의 Tiny Aya(3.35B)는 온디바이스 사용을 겨냥한 소형 모델로 어텐션과 MLP를 동일한 입력에서 병렬로 계산하는 병렬 트랜스포머 블록(Parallel Transformer Block) 구조를 채택했습니다. 이는 직렬 의존성을 줄여 계산 처리량을 높이기 위한 설계이며 소형 모델임에도 불구하고 강력한 다국어 지원 능력을 갖추고 있습니다.

이미지 분석

Diagram
Trinity Large의 레이어 구조를 보여주며 GQA와 슬라이딩 윈도우 어텐션이 결합된 형태를 설명합니다. 60개의 블록 중 초기 6개는 MoE 대신 Dense FFN을 사용하여 안정성을 꾀했음을 알 수 있습니다.
Arcee AI Trinity Large(400B) 모델의 전체 아키텍처 다이어그램

Diagram
슬라이딩 윈도우 어텐션이 특정 범위 내의 토큰에만 집중하여 계산 복잡도를 O(n²)에서 O(n*t)로 줄이는 원리를 시각적으로 설명합니다. 이는 긴 컨텍스트 모델의 효율성 핵심 기법입니다.
일반적인 인과적 자기 어텐션과 슬라이딩 윈도우 어텐션의 마스크 비교

Screenshot
표준 어텐션 결과에 시그모이드 게이팅을 적용하여 어텐션 싱크 현상을 줄이고 긴 시퀀스 일반화 능력을 높이는 구현 방식을 보여줍니다. QK-Norm 적용 위치도 코드상에서 명확히 확인할 수 있습니다.
Trinity Large에서 사용된 Gated Attention 메커니즘의 PyTorch 코드 스니펫

Diagram
두 모델 모두 공유 전문가와 다수의 개별 전문가를 사용하는 구조를 공유함을 보여줍니다. Kimi K2가 1조 파라미터 규모임에도 추론 시 32B의 파라미터만 활성화하여 효율을 달성함을 수치로 제시합니다.
DeepSeek V3/R1과 Kimi K2의 MoE 구조 및 리소스 절감 수치 비교

Chart
학습 초기(Early)에 적은 비율의 시각 토큰을 주입하는 것이 나중에 대량으로 주입하는 것보다 지식 및 추론 벤치마크에서 더 나은 결과를 냄을 증명합니다. 이는 Kimi K2.5의 학습 전략 근거가 됩니다.
시각-텍스트 공동 학습 전략에 따른 성능 비교 테이블

실무 Takeaway

표준 어텐션의 이차 복잡도 문제를 해결하기 위해 선형 어텐션(DeltaNet, Lightning Attention)이나 슬라이딩 윈도우를 결합한 하이브리드 구조가 주류로 자리잡고 있습니다.
DeepSeek가 도입한 Multi-head Latent Attention(MLA)과 멀티 토큰 예측(MTP) 기술이 GLM-5, Step 3.5 등 다른 주요 오픈 웨이트 모델들로 빠르게 확산되고 있습니다.
모델의 절대적 성능은 데이터 품질에 좌우되지만 실질적인 서비스 운영 경쟁력은 추론 효율을 높이는 아키텍처 설계에서 결정됩니다.

언급된 리소스

문서Arcee AI Trinity Technical Report

논문Kimi K2.5 Technical Report

GitHubTiny Aya Implementation from Scratch