지도 미세 조정 웜업
강화학습을 본격적으로 시작하기 전, 양질의 데이터셋으로 모델을 먼저 학습시켜 기본적인 응답 형식을 갖추게 하는 단계이다. 이는 강화학습의 탐색 효율을 높이고 학습 초기 단계의 불안정성을 줄여준다.