Together AI, PyTorch 기반 강화학습(RL) 파이프라인 및 샌드박스 환경 지원 발표

핵심 요약

강화학습 시스템 구축에는 효율적인 연산 자원과 유연한 툴링 레이어가 필수적이다. Together AI는 자사의 Instant Clusters에서 PyTorch의 TorchForge 및 Monarch 스택을 구동하여 분산 RL 학습을 지원하기 시작했다. 이 시스템은 InfiniBand 기반의 저지연 통신과 함께 코드 실행을 위한 샌드박스 환경인 CodeSandbox 및 Code Interpreter를 기본적으로 통합한다. 이를 통해 개발자는 복잡한 환경 설정 없이도 대규모 GPU 클러스터에서 에이전트의 도구 사용 및 코드 생성 능력을 학습시킬 수 있다.

배경

강화학습(RL) 기본 개념 및 GRPO 알고리즘, PyTorch 분산 학습 프레임워크(TorchTitan, Monarch 등), Kubernetes(kubectl) 기본 조작

대상 독자

강화학습(RL) 기반 에이전트를 개발하거나 대규모 분산 학습 인프라를 구축하려는 ML 엔지니어

의미 / 영향

PyTorch 생태계의 최신 RL 도구들이 클라우드 서비스와 밀착 통합됨에 따라, 에이전트의 추론 및 코딩 능력 향상을 위한 RLHF/GRPO 학습의 진입 장벽이 크게 낮아질 것으로 보입니다.

섹션별 상세

Together AI의 Instant Clusters는 PyTorch 분산 학습에 최적화된 인프라를 제공합니다. InfiniBand 및 NVLink 토폴로지를 통해 TorchForge와 Monarch가 요구하는 RDMA 기반 데이터 전송 및 분산 액터 메시징 성능을 충족합니다. 또한 드라이버, NCCL, CUDA 등이 사전 구성되어 있어 수동 설정 없이 즉시 분산 작업을 실행할 수 있습니다.

RL 워크로드의 특성을 고려하여 GPU와 CPU 자원을 혼합한 이기종 스케줄링을 지원합니다. 정책 모델과 트레이너는 GPU 노드에 배치하고, 환경 시뮬레이션이나 도구 실행과 같은 CPU 집약적 작업은 최적화된 CPU 노드에서 처리합니다. 이러한 구조는 모델 계산과 환경 상호작용이 동시에 일어나는 현대적 RL 파이프라인에 적합합니다.

보안이 강화된 코드 실행 환경인 Together CodeSandbox와 Code Interpreter를 제공합니다. CodeSandbox는 표준 컨테이너에서 실행하기 어려운 시뮬레이션이나 도구 사용 로직을 위한 풀 마이크로VM 환경을 제공하며, Code Interpreter는 파이썬 코드의 빠른 실행과 격리를 지원하여 유닛 테스트 기반의 보상 함수 구현에 활용됩니다.

Meta의 참조 구현을 바탕으로 한 GRPO(Group Relative Policy Optimization) 데모를 공개했습니다. Qwen 1.5B 모델이 블랙잭 게임을 학습하는 이 데모는 vLLM 정책 서버, Monarch 액터 메쉬, TorchStore 가중치 동기화 시스템을 통합합니다. 사용자는 Kubernetes 매니페스트를 통해 간단히 배포하고 하이퍼파라미터나 보상 함수를 수정하며 실험할 수 있습니다.

이미지 분석

Diagram
OpenEnv Hub부터 Together Instant Clusters까지 이어지는 기술 스택의 계층 구조를 보여줍니다. PyTorch의 TorchForge, Monarch, TorchStore가 Together AI의 샌드박스 환경 및 GPU 클러스터와 어떻게 상호작용하여 RL 파이프라인을 구성하는지 시각화합니다.
PyTorch 스택과 Together AI 인프라 간의 통합 워크플로 다이어그램

실무 Takeaway

Together AI의 Instant Clusters를 활용하면 복잡한 인프라 설정 없이 TorchForge 기반의 분산 RL 학습 환경을 즉시 구축할 수 있습니다.
Code Interpreter를 OpenEnv 환경으로 래핑하여 RL 에이전트가 코드 스니펫을 실행하고 그 결과를 관찰값으로 받아 보상을 계산하는 워크플로를 구현할 수 있습니다.
InfiniBand 기반의 RDMA 통신을 지원하여 대규모 액터 메쉬와 트레이너 간의 데이터 동기화 병목 현상을 최소화했습니다.

언급된 리소스

GitHubOpenEnv GRPO BlackJack Repository