비동기 강화학습
강화학습의 데이터 수집과 모델 업데이트 과정을 병렬로 처리하여 대기 시간을 최소화하는 방식이다. 기존 동기식 방식의 병목 현상을 해결하여 학습 처리량을 수 배 이상 향상시킨다. 대규모 언어 모델의 사후 학습 과정에서 시간과 비용을 획기적으로 줄여주는 핵심 시스템 기술이다.