Miles, RadixArk의 대규모 LLM RL 포스트트레이닝 프레임워크

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

대규모 LLM의 RL post-training은 모델 확장과 MoE, 다양한 하드웨어·저정밀도 환경으로 인해 분산 시스템 문제로 확장되었다. Miles는 SGLang을 통한 고처리량 롤아웃, Megatron-LM 기반의 확장형 훈련, Ray 오케스트레이션, PyTorch 수치 계층을 결합한 오픈소스 프레임워크로서 작은 코어와 플러그형 엣지로 사용자 확장을 허용한다. 통합된 저정밀도 레시피와 MoE-aware rollout/training 정합성, NCCL/RDMA 기반의 빠른 가중치 동기화, 관측성 및 내결함성 기능을 포함해 대규모 LLM RL 작업의 재현성과 운영성을 개선하도록 설계되었다. 다만 본문은 구체적 벤치마크 수치나 구현 예제 대신 아키텍처 구성요소와 설계 목표를 중심으로 기술하였다.

섹션별 상세

대규모 LLM의 RL post-training 단계는 단순한 학습 루프를 넘어 분산 시스템 문제로 확장되었다. 롤아웃(worker)에서 고처리량 샘플을 생성하고 훈련 트레이너가 이를 안정적으로 소비하며 정책과 라우팅 행동을 동기화해야 한다는 요구가 동시에 존재한다. MoE 모델의 라우팅 비헤이비어와 하드웨어·저정밀도 설정의 다양성 때문에 개별 구성요소의 불일치는 학습 안정성과 재현성에 악영향을 미칠 수 있다. 따라서 롱런 잡에서의 관측성, 체크포인팅, 내결함성은 설계 초기부터 포함되어야 한다고 글에서 정리되었다.

Miles의 아키텍처는 작고 확장 가능한 코어와 런타임에 플러그인 방식으로 사용자 모듈을 붙이는 'small-core, many-edges' 철학을 채택했다. 구체적으로 롤아웃은 SGLang으로 고처리량 샘플 생성을 담당하고, 분산 훈련은 Megatron-LM이 처리하며 Ray가 클러스터 오케스트레이션과 액터 수명주기를 관리하고 PyTorch가 공통 수치 및 확장성 계층을 제공한다. 이 구성은 사용자 정의 롤아웃 로직, 보상 계산, 손실 함수, 샘플 필터링, 메트릭과 훅을 런타임에 붙여 변경 가능하게 하여 프레임워크 포크 없이 알고리즘 실험과 운영 요구를 충족하도록 설계되었다. 또한 글에서는 MoE-aware rollout/training alignment, 통합된 저정밀도 레시피, NCCL/RDMA 기반의 빠른 weight 동기화, 관측성 및 내결함성이 내장되어 있다고 명시되어 이러한 요소들이 대규모 RL 작업의 재현성과 운영성을 개선한다고 결론을 내렸다.

Miles, RadixArk의 대규모 LLM RL 포스트트레이닝 프레임워크

TL;DR

섹션별 상세

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드