최신 LLM 아키텍처 트렌드: KV 공유, mHC, 압축 어텐션

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

최근 오픈 웨이트 LLM들은 추론 및 에이전트 워크플로에서 긴 문맥을 유지하기 위해 KV 캐시 크기와 메모리 트래픽을 줄이는 아키텍처 설계에 집중한다. Gemma 4는 KV 공유와 레이어별 임베딩을, Laguna XS.2는 레이어별 어텐션 예산 할당을 도입했다. ZAYA1-8B는 압축된 잠재 공간에서 어텐션을 수행하는 CCA를, DeepSeek V4는 mHC와 CSA/HCA를 통해 효율성을 극대화했다. 이러한 기법들은 모델 파라미터 수를 줄이지 않고도 긴 문맥 처리 비용을 획기적으로 낮추는 효과를 제공한다.

대상 독자

LLM 아키텍처 설계자 및 프로덕션 환경에서 긴 문맥 처리를 최적화하려는 AI 엔지니어

의미 / 영향

최신 LLM 아키텍처는 모델의 파라미터 크기보다 KV 캐시 효율성과 메모리 트래픽 감소에 집중하고 있다. 이러한 설계 변화는 긴 문맥을 처리하는 에이전트 및 추론 모델의 비용을 낮추어 프로덕션 도입을 가속화할 것이다.

섹션별 상세

Gemma 4는 cross-layer attention을 통해 KV 캐시를 레이어 간 공유하여 메모리 사용량을 절반으로 줄인다. 이 기법은 이전 레이어의 KV 텐서를 재사용함으로써 긴 문맥 처리 시 발생하는 메모리 부담을 완화한다. Gemma 4 E2B 모델의 경우 128K 컨텍스트에서 약 2.7GB의 메모리 절감 효과를 보인다.

Gemma 4의 PLE(Per-Layer Embeddings)는 메인 트랜스포머 스택의 연산 비용을 늘리지 않고 레이어별 임베딩 테이블을 통해 모델의 표현력을 확장한다. 각 레이어는 입력 토큰에 대해 고유한 임베딩 슬라이스를 받아 처리하며, 이는 모델의 전체 파라미터 효율성을 높이는 역할을 한다. 이 방식은 대규모 모델로 확장하지 않고도 모델의 용량을 효과적으로 늘릴 수 있는 대안을 제시한다.

Laguna XS.2는 레이어별로 query head 수를 다르게 설정하는 attention budgeting을 통해 전체 어텐션 연산 비용을 최적화한다. 모델은 40개 레이어 중 30개는 슬라이딩 윈도우 어텐션을, 10개는 전체 어텐션을 사용하며 각 레이어에 최적화된 헤드 수를 할당한다. 이는 모든 레이어에 동일한 어텐션 예산을 할당하는 대신, 연산 효율이 높은 구조를 설계하는 방식이다.

ZAYA1-8B의 CCA(Compressed Convolutional Attention)는 압축된 잠재 공간에서 어텐션을 직접 수행하고 컨볼루션 믹싱을 적용하여 연산 효율과 표현력을 동시에 확보한다. 기존 MLA와 달리 CCA는 압축된 Q, K 텐서에 컨볼루션을 적용하여 로컬 컨텍스트 정보를 보존한다. 이 기법은 KV 캐시뿐만 아니라 프리필(prefill) 단계의 연산량까지 줄이는 효과를 가진다.

DeepSeek V4의 mHC(Manifold-Constrained Hyper-Connections)는 단일 잔차 스트림 대신 여러 병렬 스트림을 사용하고 안정성 제약을 추가하여 더 풍부한 정보 전달을 가능하게 한다. 이 기법은 잔차 연결을 현대화하여 모델의 표현력을 높이면서도 연산 오버헤드를 최소화한다. mHC는 27B 모델 실험을 통해 검증되었으며, DeepSeek V4의 핵심 아키텍처로 채택되었다.

DeepSeek V4의 CSA와 HCA는 시퀀스 차원에서 토큰 그룹을 압축하여 KV 캐시를 줄이며, 서로 다른 압축률을 가진 두 기법을 교차 적용하여 긴 문맥 처리 비용을 90% 이상 절감한다. CSA는 희소 선택을 통해 정보를 유지하고, HCA는 더 높은 압축률로 밀집 어텐션을 수행한다. 이 두 기법의 조합은 1M 토큰 컨텍스트에서 DeepSeek V3.2 대비 10% 수준의 KV 캐시만 사용하는 효율성을 달성한다.

실무 Takeaway

긴 문맥을 다루는 LLM 서비스 구축 시, 단순히 모델 크기를 줄이는 대신 KV 캐시 공유나 레이어별 어텐션 예산 할당 같은 아키텍처 최적화 기법을 고려해야 한다.
DeepSeek V4와 같은 최신 모델의 mHC나 압축 어텐션 기법은 추론 비용을 획기적으로 낮추면서도 모델 성능을 유지하는 실질적인 대안을 제공한다.

언급된 리소스

문서LLM Architecture Gallery

문서Build A Reasoning Model (From Scratch)

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

대상 독자

LLM 아키텍처 설계자 및 프로덕션 환경에서 긴 문맥 처리를 최적화하려는 AI 엔지니어

의미 / 영향

섹션별 상세

실무 Takeaway

긴 문맥을 다루는 LLM 서비스 구축 시, 단순히 모델 크기를 줄이는 대신 KV 캐시 공유나 레이어별 어텐션 예산 할당 같은 아키텍처 최적화 기법을 고려해야 한다.
DeepSeek V4와 같은 최신 모델의 mHC나 압축 어텐션 기법은 추론 비용을 획기적으로 낮추면서도 모델 성능을 유지하는 실질적인 대안을 제공한다.

언급된 리소스

문서LLM Architecture Gallery

문서Build A Reasoning Model (From Scratch)

최신 LLM 아키텍처 트렌드: KV 공유, mHC, 압축 어텐션

핵심 요약

대상 독자

의미 / 영향

섹션별 상세

실무 Takeaway

언급된 리소스

최신 LLM 아키텍처 트렌드: KV 공유, mHC, 압축 어텐션

핵심 요약

대상 독자

의미 / 영향

섹션별 상세

실무 Takeaway

언급된 리소스

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드