Forge RL 시스템
대규모 agent-native RL 시스템으로 white-box와 black-box 에이전트를 통합 관점에서 학습 루프를 구성하고, windowed-FIFO 스케줄링, prefix-tree merging, 추론 커널 최적화 등을 결합해 RL 학습의 확장성과 안정성을 높인다.