일반화된 단계별 정책 최적화
강화학습을 통해 모델의 출력 정책을 정교하게 조정하는 방법론이다. 이 아티클에서는 답변의 길이나 장황함을 제어하면서도 지능 수준을 유지하기 위한 최적화 기법으로 언급되었다.
성능은 높이고 비용은 낮춘 최신 오픈소스 AI 모델 총정리