강화학습 연산 스케일링
언어 모델 학습 시 강화학습 단계에서 투입되는 연산 자원을 늘려 모델의 성능을 향상시키는 기법이다. 추론 시간 연산이나 학습 데이터 생성 시 더 많은 자원을 할당하여 복잡한 문제 해결 능력을 극대화한다.