본문으로 건너뛰기

rft

강화 파인튜닝

중급

정답 데이터를 직접 학습시키는 대신, 모델의 출력 결과에 대해 보상을 주는 방식으로 성능을 최적화하는 기법이다. 모델이 스스로 다양한 해결 경로를 탐색하게 하여 복잡한 추론 능력을 개선하는 데 효과적이다.