핵심 요약
기존의 피드포워드 네트워크(FFN)나 혼합 전문가(MoE) 구조를 대체하기 위해 DeepSeek의 Engram 메모리 레이어를 OLMo-core 아키텍처에 이식했습니다. 이 구조는 토큰 라우팅을 통해 메모리 행렬 전체가 아닌 특정 Engram 블록만 활성화하며, GPU 간 통신 오버헤드를 최소화하도록 설계되었습니다. AI2의 내부 클러스터 환경에 최적화된 OLMo-core를 일반 클라우드인 RunPod에서 실행하기 위해 환경 구축 파이프라인을 재설계하고 독자적인 텔레메트리 우회 기법을 적용했습니다. 4개의 NVIDIA A40 GPU 클러스터에서 3.5B 파라미터 모델로 테스트한 결과, 장치당 초당 36개 토큰의 처리량과 안정적인 손실값 하락을 기록하며 분산 학습의 안정성을 확인했습니다. 이번 연구는 고성능 프레임워크의 이식성을 높이고 새로운 메모리 아키텍처의 실무 적용 가능성을 제시했다는 점에서 의미가 있습니다.
의미 / 영향
특정 기업의 슈퍼컴퓨터 환경에 종속된 고성능 AI 프레임워크를 일반 클라우드 인프라로 이식하는 구체적인 방법론을 제시했으며, 새로운 메모리 아키텍처인 Engram의 실전 배치 가능성을 확인했습니다.
빠른 이해
요약 브리프
DeepSeek의 Engram 메모리 구조를 OLMo-core 프레임워크에 이식하여 분산 학습에 성공한 사례입니다. 일반 클라우드 환경에서 발생할 수 있는 I/O 및 종속성 문제를 해결하고 3.5B 모델의 안정적인 학습 성능을 수치로 입증했습니다.
새로운 점
AI2의 폐쇄적인 OLMo-core 환경을 RunPod으로 이식하고 DeepSeek의 최신 Engram 레이어를 결합한 최초의 오픈소스 PoC입니다.
핵심 메커니즘
입력 토큰 → Engram 라우팅 알고리즘 → 특정 메모리 블록 활성화 → HSDP 기반 분산 처리 → 안정적인 그래디언트 업데이트 및 손실값 하락
핵심 수치
- Throughput: ~36 Tokens / Second / Device- 4x A40 GPU 환경
- Memory Reserved: 28.6 GiB- A40 48GB 중 효율적 사용
- Training Loss: 12.21 → 12.05- 196 steps 기준
섹션별 상세
Engram 아키텍처 설계 및 통합
RunPod 환경에서의 MLOps 최적화
분산 학습 검증 및 성능 지표
실무 Takeaway
- DeepSeek Engram 레이어를 OLMo-core에 통합하여 FFN 대비 연산 효율성을 개선하고 분산 환경에서의 확장성을 확보함
- RunPod과 같은 범용 클라우드에서 OLMo-core를 실행하기 위해 NVMe 기반의 빠른 환경 구축 파이프라인과 텔레메트리 우회 스크립트를 적용함
- 4x A40 GPU 환경에서 3.5B 모델 학습 시 장치당 36 Tokens/sec의 처리량과 안정적인 그래디언트 흐름을 수치로 증명함
언급된 리소스
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.