sft-warm-up
지도 미세 조정 웜업
강화학습을 본격적으로 시작하기 전, 양질의 데이터셋으로 모델을 먼저 학습시켜 기본적인 응답 형식을 갖추게 하는 단계이다. 이는 강화학습의 탐색 효율을 높이고 학습 초기 단계의 불안정성을 줄여준다.
지도 미세 조정 웜업
강화학습을 본격적으로 시작하기 전, 양질의 데이터셋으로 모델을 먼저 학습시켜 기본적인 응답 형식을 갖추게 하는 단계이다. 이는 강화학습의 탐색 효율을 높이고 학습 초기 단계의 불안정성을 줄여준다.