Graviton-Native: 32GB RAM에서 500B 파라미터 모델 학습 및 실행을 가능하게 하는 아키텍처

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

대형 언어 모델의 막대한 메모리 요구량은 일반 사용자의 접근을 제한하는 주요 장벽이다. Graviton-Native는 사후 양자화 대신 학습 단계부터 저비트 및 희소 표현을 사용하는 아키텍처를 도입하여 이 문제를 해결했다. BitNet b1.58의 3진수 가중치와 MoE(Mixture of Experts) 기술을 결합하여 500B 규모의 모델도 32GB RAM 환경에서 구동 가능하도록 설계했다. Apple Silicon과 NVIDIA GPU를 모두 지원하며, 디스크 오프로딩을 통해 저사양 기기에서도 거대 모델 학습이 가능해진다.

배경

Python 3.9+, PyTorch 2.0+, LLM 아키텍처(Transformer, MoE)에 대한 기본 지식

대상 독자

저사양 하드웨어에서 초거대 모델을 학습하거나 배포하려는 AI 엔지니어 및 연구자

의미 / 영향

이 기술은 고가의 H100 GPU 클러스터 없이도 초거대 모델 연구를 가능하게 하여 AI 기술의 민주화에 기여한다. 특히 BitNet과 MoE의 결합은 향후 온디바이스 AI의 성능 한계를 크게 확장할 것으로 예상된다.

섹션별 상세

BitNet b1.58 아키텍처를 도입하여 가중치를 {-1, 0, +1}의 3진수로 제한함으로써 메모리 사용량을 획기적으로 줄였다. 부동 소수점 곱셈 대신 덧셈과 뺄셈 연산만으로 행렬 곱셈을 수행하여 메모리와 에너지 소비를 각각 약 10배씩 절감한다. 이는 사후 양자화 방식과 달리 학습 단계부터 적용되어 품질 손실을 최소화한다.

bash

python scripts/train_bitnet.py --model_size 350m --steps 2

BitNet 아키텍처를 사용한 모델 학습 퀵 데모 실행 명령어

MoE(Mixture of Experts) 구조를 통해 전체 파라미터는 500B 규모이지만 토큰당 활성화되는 파라미터는 10~20B 수준으로 유지한다. Top-K 라우팅 기법을 사용하여 필요한 전문가 모델만 선택적으로 호출함으로써 추론 효율성을 극대화한다. 이를 통해 500B 규모의 모델도 활성 파라미터 기준 32GB RAM 환경에서 운용이 가능하다.

Sparse 및 Top-K 활성화 기법을 적용하여 레이어당 뉴런의 약 30%만 발화하도록 설계했다. 이러한 희소성 덕분에 계산 비용을 70% 절감하며 70B 모델의 경우 1.58비트 설정을 통해 14GB RAM에서도 구동이 가능하다. 이는 기존 70B 모델이 140GB 이상의 RAM을 요구하던 것과 비교해 10배의 효율 향상을 의미한다.

메모리 효율적인 학습을 위해 Gradient Checkpointing과 8비트 옵티마이저를 지원한다. 특히 Mac 환경에서는 디스크 오프로딩 기능을 통해 64GB RAM 사양에서도 72B 모델을 학습할 수 있는 워크플로우를 제공한다. NVIDIA 환경에서는 DeepSpeed를 활용한 멀티 GPU 학습을 지원하여 클라우드 인스턴스에서의 확장성도 확보했다.

bash

python3 -m graviton_native.cli run --num_gpu_cores 32 --model_size 72b --disk_offload --steps 5000 --save_every 100

Mac 환경에서 디스크 오프로딩을 활성화하여 72B 모델을 학습하는 명령어

실무 Takeaway

BitNet b1.58 아키텍처를 활용하면 부동 소수점 연산을 제거하여 추론 속도를 높이고 메모리 요구량을 90% 이상 절감할 수 있다.
MoE와 Sparse Activation을 결합하여 전체 모델 크기는 키우되 실제 계산에 참여하는 파라미터 수를 조절함으로써 저사양 하드웨어에서도 초거대 모델을 운용할 수 있다.
Apple Silicon의 MPS 가속과 디스크 오프로딩 기법을 사용하여 고가의 서버급 GPU 없이도 72B 규모의 모델 학습이 가능하다.

언급된 리소스

논문Graviton-Native Technical Report