강화 파인튜닝
정답 데이터를 직접 학습시키는 대신, 모델의 출력 결과에 대해 보상을 주는 방식으로 성능을 최적화하는 기법이다. 모델이 스스로 다양한 해결 경로를 탐색하게 하여 복잡한 추론 능력을 개선하는 데 효과적이다.
라벨링 데이터 없이 AI 성능 극대화? Amazon Nova RFT 활용법