MinT: 수백만 개의 LLM 학습 및 서빙을 위한 관리형 인프라

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

포스트-트레이닝은 다수의 정책 변형을 단일 고가의 기지 모델 배포 위에 올려놓는 환경이다. Full checkpoint 기반 파인튜닝은 확장에 한계가 있으며, MinT는 base-model을 resident하게 유지하고 LoRA adapter revision을 통해 rollout, update, export, evaluation, serving, rollback를 연결하는 서비스형 RL 인프라를 제시한다. 이를 통해 다수의 정책 변형을 하나의 거대 모델에 흩뜨리지 않고 관리할 수 있으며, 1T-class 규모의 베이스 모델과 함께 수백만 규모의 어댑터 정책을 다룰 수 있다.

왜 중요한가

핵심 기여

Adapter lifecycle from update to serving

MinT는 학습에서 훈련된 LoRA를 PEFT 어댑터_revision으로 내보내고, 샤딩-서빙 전환, 호환성 확인, rollout 기록, 샘플링 로딩, 서빙-결과 귀속, 롤백까지의 어댑터-수명주기를 제공한다. 어댑터_revision은 rollout, evaluation, online serving, recovery에서 선택된 고정 동작으로 작동한다.

Large-scale multi-LoRA RL training

MinT는 하나의 resident base 위에서 다수의 정책을 LoRA로 학습한다. 단일-작업 PEFT 및 Megatron 기반 MoE 트레이너를 지원하고, Dense 및 MoE 대규모 배포에서 end-to-end LoRA RL을 수행한다(235B-A22B, 1T-class MoE 카운트다운-task 등).

Policy-population multi-LoRA serving

MinT는 shared-base vLLM 엔진을 통해 Exported adapters를 서빙하고, durable policy addressability를 CPU/GPU hot working set과 분리한다. 1M packed catalog를 구축·감사하고, 100 shard에 걸친 어댑터를 선별적으로 서빙한다. 컬드 로딩은 scheduled work로 취급되고 캐시-미스를 관리하는 제어를 제공한다.

Public reproducibility paths

Tinker 호환 API와 mint-cookbook 레시피를 제공하여 SFT, 선호 학습(rollout-based RL), AutoResearch 예제를 동일한 어댑터 수명주기로 재현 가능하게 한다.

핵심 아이디어 이해하기

시작점과 한계: Transformer의 Self-Attention은 시퀀스 내 모든 토큰 쌍의 관계를 계산하는데, 이로 인한 연산량은 시퀀스 길이의 제곱에 비례한다. 특히 많은 정책 변형이 하나의 기지(base) 모델 위에서 작동하는 RL 환경에서 전체 체크포인트를 매번 생성하는 방식은 자원 소모가 크다. LoRA를 통해 매개변수의 일부분만 학습하고, 적은 크기의 어댑터를 프로덕션에 올려도 파인튜닝 효과를 얻을 수 있다. 2) 해결 원리: MinT는 base-model을 resident하게 두고 LoRA 어댑터 revisions를 rollout, update, export, evaluation, serving, rollback로 연결하는 adapter-centered 워크플로우를 통해 학습-서빙 경계를 어댑터_revision으로만 이동시킨다. trainer는 adapter tensors와 optimizer state를 관리하고, exporter는 serving layout에 맞춘 PEFT 어댑터 파일을 생성한다. 3) 달라지는 점: 어댑터_revision은 서비스 단위로 관리되며, 어댑터 캐시-레이어(주소 가능 캐시, CPU 캐시, GPU batch)로 구분된 다층 캐시를 통해 대규모 정책 카탈로그를 다룬다. 4) 공헌의 실무적 의의: Scale Up( frontier-scale Dense 및 MoE), Scale Down(adapter-only handoff), Scale Out(1M catalog)으로 구성된 세 축에서, base 모델은 로딩-저장 없이 운영되며 어댑터 revision이 정책 단위로 확장되며 다tenant 운영이 가능하다.

방법론

단락 1: 전반적 접근 방식과 핵심 아이디어. MinT는 Tinker-호환 서비스로, 서비스 plane이 호출을 scheduling하고 policy-record를 해석해 worker에 할당한다. compute plane은 PEFT/ Megatron 트레이너, vLLM sampler/sserving actor로 구성되며, 세 축의 경계에서 adapter revision, rollout records, shared-base serving 등을 연결한다. 단락 2: 핵심 메커니즘. 어댑터는 trainer에서 export되어 PEFT 레이아웃으로 재구성되며, 멀티-TP / EP 구조에서 LoRA 텐서를 모듈별로 수집·재배치한다. MoE의 경우 expert-별 LoRA 텐서를 수집하고, shared-expert 텐서를 중복 없이 재구성한다. 단락 3: 시간-분할 학습. 다수의 정책을 하나의 resident base에서 time-slice 방식으로 학습하며, 각 정책의 LoRA 텐서와 옵티마이저 상태를 교체한다. 단락 4: 공유-베이스 롤아웃 및 서빙. vLLM 엔진에서 resident base+어댑터를 조합해 추론하고, 어댑터 캐시는 Addressable Catalog, CPU Cache, GPU Batch의 3-tier로 관리된다. Cold loading은 scheduled work로 취급되며 ready 상태를 기준으로 신규 어댑터를 노출한다. 두-phase readiness는 신규 어댑터의 activation 및 노출 전까지의 대기 구간을 제어한다.

주요 결과

주요 결과는 세 가지 축의 검증으로 제시된다. 1) Scale Out의 1M packed catalog: 1,000,000개의 packed adapter revisions를 생성·감사했고, 100 shards에서 256개를 샘플링 audit에서 모두 OK로 확인되었다. 2) Open-loop warm capacity: 1MPacked catalog의 warm path에서 64개의 어댑터를 같은 배치에서 디코딩하며 TTFT ≤ 5s를 달성하는 시나리오에서 0.5–2 rps에서 SLO를 100% 달성했고, 4 rps에서 72.1%의 SLO 달성으로 knee가 관측된다. 3) Scale Down의 어댑터-핸드오프: Qwen3-4B에서 Adapter(LoRA rank-32) 파일 크기 252 MiB, Cold first-sample 4.114 s, 총 샘플링 속도 15.568/15.567 tok/s, 전체 대비 머지 경로의 71.8초를 절약한다. 30B MoE의 경우 Adapter(LoRA rank-16) 파일 1.692 GB, Cold first-sample 117.304 s, total 1.874/5.700 tok/s로 비교된다. 4) Scale Up의 학습/평가 경로: SFT(DPO) 및 GRPO에서 Dense 및 MoE 배포에서 학습-평가-서빙의 lifecycle이 같은 어댑터로 작동하며, 30B 및 235B MoE에서도 동일한 adapter lifecycle를 유지한다. 5) MoE/Kimi HPT 경로: 30B-A3B 및 235B-A22B, 1.04T KAK 카운트다운-task RL에서 LoRA RL 경로를 유지한다. 6) 캐시 및 cold-load 최적화: MoE LoRA의 tensor fanout을 줄이고, packed representation 도입으로 live-load를 8.5–8.7× 가속, cold-load에서 0.2초 수준의 로딩 시간을 달성한다. 7) Activation-주도 정책: Two-phase readiness를 통해 activation-대기 시간을 rollout/prewarm으로 이동시키고, ready-path에서 어댑터 로딩을 제거한다. 8) Native-vLLM caveat: 1M packed layout은 native vLLM에서 시작 시 실패하며, 표준 PEFT의 1k baseline과 비교할 때 작동 방식이 다름을 보여준다.

기술 상세

단락 1: 아키텍처 구조. 서비스 플레인-컴퓨트 플레인-영구 저장소로 구성되며, 세 가지 compute 영역이 존재한다. 1) Single-worker PEFT 트레이너: base 디리플리카를 하나 보유한 상태에서 LoRA 업데이트를 수행한다. 2) Megatron 트레이너 그룹: tensor-parallel, pipeline-parallel, ready-expert-parallel로 분할된 베이스 및 어댑터 텐서를 다룬다. 3) vLLM 샘플러/서빙 액터: inference base를 보유하고 export된 어댑터_revision을 적용해 롤아웃/서빙을 수행한다. 저장소에는 체크포인트, rollout_records, exported_revisions, 어댑터 캐시 상태가 저장된다. 단락 2: 핵심 메커니즘의 수학적/알고리즘적 기반. 어댑터_revision은 fixed PEFT 어댑터 파일로, 어댑터 텐서, rank, target_modules, base-model compatibility metadata를 포함한다. MoE의 경우 tensor-parallel 텐서 분할과 전문가 텐서를 수집하고, 공유-전문가 텐서를 중복 없이 재구성한다. 단락 3: Prior work 대비 차별점. 풀 체크포인트를 재생성하는 전통적 방법과 달리 어댑터_revision이 트레이닝-롤아웃-서빙 간의 경계를 가볍고 명확하게 이동한다. 또한 1M 카탈로그와 캐시-레이어를 분리해 대규모 다Tenant 운영에 적합한 주소화(addressability)와 locality를 구현한다. 단락 4: 구현/학습 세부사항. Time-sliced multi-LoRA 학습으로 하나의 resident base에서 여러 정책을 순차적으로 처리한다. 어댑터-수정 상태와 옵티마이저 상태를 정책 간 스위치 시에만 교체하고, base_weights는 재배치 없이 상주한다. MoE의 경우 라우팅 재현성(R3)을 기록하고, IcePop 롤아웃 보정으로 확률 차이로 인한 불일치를 완화한다. 단락 5: 이론적 분석/제한. 캐시-레이어 구조에서 cold-load는 scheduled work로 처리되며, warm-path latency와 cold-path latency를 구분해 관리한다. Native-vLLM과의 포지셔닝 차이가 존재하며, 1M catalog의 완전한 상주를 보장하지 않는다.

한계점

Native vLLM에서 1M packed layout의 시작은 실패한다는 caveat가 있다. 1k baseline은 PEFT 표준 레이아웃에서 동작하지만 1M packed catalog은 Native vLLM에서STARTUP 실패로 나타난다.

실무 활용

MinT는 LoRA를 정책 단위로 관리하는 서비스형 인프라로, base-model은 resident로 유지되며 exported adapter revision이 rollout, evaluation, serving, rollback의 경로를 통해 처리된다. 대규모 다Tenant 환경에서 수백만 개의 어댑터 정책을 bounded resident working set에서 운영 가능하게 한다.

다Tenant personalized LLM 서비스에서 각 고객/도메인별 어댑터를 공유 base로 운용
GRPO/ DPO/ SFT, RLHF 등 다양한 학습Paradigm에서 동일 어댑터 라이프사이클 적용
MoE/MLA/DSA 구조의 대형 모델에서 1T급 파라미터 규모의 RL 파이프라인 운영
AutoResearch cookbook를 활용한 재현 가능한 실험 파이프라인 구축

코드 공개 여부: 공개

코드 저장소 보기

키워드

LoRAPEFTvLLMMoEIcePop rollout correctionadapter revisionsscale-outpacked MoE tensors