Covenant-72B: 인터넷상 신뢰할 수 없는 피어들과 함께 72B LLM 사전 학습하기

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

전 세계적으로 분산된 환경에서 대규모 기초 모델을 학습시키려는 시도가 늘고 있으나 기존 방식은 소규모이거나 허가된 참여자만 가능했다. 본 연구에서는 블록체인 프로토콜을 기반으로 누구나 자유롭게 참여할 수 있는 환경에서 72B 매개변수 규모의 LLM인 Covenant-72B를 개발했다. SparseLoCo라는 통신 효율적 최적화 도구를 사용하여 피어들의 잦은 이탈과 합류를 지원하며 약 1.1T 토큰을 학습시켰다. 결과적으로 중앙 집중식 학습 모델과 대등한 성능을 보여주며 대규모 분산 학습의 민주화 가능성을 입증했다.

배경

분산 컴퓨팅 기초, LLM 학습 메커니즘, 최적화 알고리즘 이해

대상 독자

분산 컴퓨팅 및 거대 언어 모델 학습 인프라 개발자

의미 / 영향

거대 기업 중심의 AI 개발 생태계를 탈중앙화된 협업 모델로 전환할 수 있는 기술적 이정표를 제시했다. 특히 저대역폭 인터넷 환경에서도 대규모 모델 학습이 가능하다는 것을 증명하여 AI 개발의 진입 장벽을 낮췄다.

섹션별 상세

Covenant-72B는 블록체인 기술을 결합하여 전 세계의 불특정 다수가 컴퓨팅 자원을 공유하며 학습에 참여할 수 있는 최초의 대규모 오픈 프레임워크 결과물이다. 기존의 분산 학습이 신뢰할 수 있는 화이트리스트 기반 참여자로 제한되었던 것과 달리 이 프로젝트는 라이브 블록체인 프로토콜을 통해 권한 없는(permissionless) 참여를 실현했다.

학습 과정에서 SparseLoCo(Sparse Low-Rank Consensus) 최적화 기법을 도입하여 인터넷 환경의 불안정성을 극복했다. 이 기법은 통신 오버헤드를 획기적으로 줄이면서도 피어들이 자유롭게 네트워크에 참여하거나 이탈하는 동적 환경을 지원하여 분산된 자원을 효율적으로 통합한다.

모델은 약 1.1T(1조 1천억) 개의 토큰으로 사전 학습되었으며 이는 글로벌 분산 학습 사례 중 연산량과 모델 규모 면에서 최대 수준이다. 벤치마크 결과 유사하거나 더 높은 연산 비용을 들인 중앙 집중식 모델들과 비교해도 경쟁력 있는 성능을 기록했다.

이번 연구는 대규모 모델 학습이 거대 기업의 전유물이 아니라는 점을 시사하며 컴퓨팅 자원의 민주화를 통해 누구나 고성능 AI 개발에 기여할 수 있는 기술적 토대를 마련했다. 특히 신뢰할 수 없는(trustless) 환경에서도 대규모 모델의 수렴이 가능하다는 것을 실증했다.

실무 Takeaway

SparseLoCo 최적화 기법을 활용하면 인터넷과 같은 저대역폭 및 고지연 환경에서도 72B 규모의 거대 모델을 효율적으로 분산 학습할 수 있다.
블록체인 프로토콜을 보상 및 참여 관리 시스템으로 결합하여 전 세계의 유휴 컴퓨팅 자원을 대규모 AI 학습에 동원하는 새로운 협업 모델이 가능하다.
분산 학습 모델이 중앙 집중식 모델과 대등한 성능을 낼 수 있음을 확인했으므로 하드웨어 제약이 있는 연구 그룹도 글로벌 협업을 통해 대형 모델 개발에 도전할 수 있다.

언급된 리소스

논문Covenant-72B: Pre-Training a 72B LLM with Trustless Peers Over-the-Internet