핵심 요약
최근 오픈 웨이트 LLM 시장은 모델 크기의 확장과 효율적인 아키텍처 도입이라는 두 가지 축으로 빠르게 발전하고 있습니다. 이 글은 2026년 초에 출시된 Arcee AI의 Trinity Large부터 Cohere의 Tiny Aya까지 10가지 주요 모델의 구조적 특징과 벤치마크 성능을 상세히 비교합니다. 특히 Mixture-of-Experts(MoE)의 고도화, 선형 어텐션과 표준 어텐션을 결합한 하이브리드 구조, 그리고 추론 효율을 극대화하는 기술들이 어떻게 적용되고 있는지 설명합니다. 결과적으로 모델 성능은 아키텍처 자체보다 데이터 품질과 학습 레시피에 크게 의존하지만 효율적인 아키텍처 설계가 실질적인 서비스 구현의 핵심임을 강조합니다.
배경
Transformer 아키텍처에 대한 심화 지식, Mixture-of-Experts(MoE) 개념, Attention Mechanism(GQA, SWA)의 이해
대상 독자
LLM 아키텍처 설계자 및 오픈 소스 모델을 프로덕션에 도입하려는 머신러닝 엔지니어
의미 / 영향
오픈 웨이트 모델들이 효율적인 아키텍처 도입을 통해 폐쇄형 모델의 성능을 빠르게 추격하고 있습니다. 특히 하이브리드 어텐션과 MLA 기술의 확산은 긴 컨텍스트 처리 비용을 획기적으로 낮춰 기업들이 고성능 LLM을 더 경제적으로 운영할 수 있게 합니다.
섹션별 상세
이미지 분석

Trinity Large의 레이어 구조를 보여주며 GQA와 슬라이딩 윈도우 어텐션이 결합된 형태를 설명합니다. 60개의 블록 중 초기 6개는 MoE 대신 Dense FFN을 사용하여 안정성을 꾀했음을 알 수 있습니다.
Arcee AI Trinity Large(400B) 모델의 전체 아키텍처 다이어그램

슬라이딩 윈도우 어텐션이 특정 범위 내의 토큰에만 집중하여 계산 복잡도를 O(n²)에서 O(n*t)로 줄이는 원리를 시각적으로 설명합니다. 이는 긴 컨텍스트 모델의 효율성 핵심 기법입니다.
일반적인 인과적 자기 어텐션과 슬라이딩 윈도우 어텐션의 마스크 비교

표준 어텐션 결과에 시그모이드 게이팅을 적용하여 어텐션 싱크 현상을 줄이고 긴 시퀀스 일반화 능력을 높이는 구현 방식을 보여줍니다. QK-Norm 적용 위치도 코드상에서 명확히 확인할 수 있습니다.
Trinity Large에서 사용된 Gated Attention 메커니즘의 PyTorch 코드 스니펫

두 모델 모두 공유 전문가와 다수의 개별 전문가를 사용하는 구조를 공유함을 보여줍니다. Kimi K2가 1조 파라미터 규모임에도 추론 시 32B의 파라미터만 활성화하여 효율을 달성함을 수치로 제시합니다.
DeepSeek V3/R1과 Kimi K2의 MoE 구조 및 리소스 절감 수치 비교

학습 초기(Early)에 적은 비율의 시각 토큰을 주입하는 것이 나중에 대량으로 주입하는 것보다 지식 및 추론 벤치마크에서 더 나은 결과를 냄을 증명합니다. 이는 Kimi K2.5의 학습 전략 근거가 됩니다.
시각-텍스트 공동 학습 전략에 따른 성능 비교 테이블
실무 Takeaway
- 표준 어텐션의 이차 복잡도 문제를 해결하기 위해 선형 어텐션(DeltaNet, Lightning Attention)이나 슬라이딩 윈도우를 결합한 하이브리드 구조가 주류로 자리잡고 있습니다.
- DeepSeek가 도입한 Multi-head Latent Attention(MLA)과 멀티 토큰 예측(MTP) 기술이 GLM-5, Step 3.5 등 다른 주요 오픈 웨이트 모델들로 빠르게 확산되고 있습니다.
- 모델의 절대적 성능은 데이터 품질에 좌우되지만 실질적인 서비스 운영 경쟁력은 추론 효율을 높이는 아키텍처 설계에서 결정됩니다.
AI 요약 · 북마크 · 개인 피드 설정 — 무료