강화 미세 조정
강화학습 원리를 적용해 모델의 행동을 미세 조정하는 기법으로, 단순히 지식을 학습시키는 것을 넘어 특정 도메인에 맞는 추론 방식이나 응답 스타일을 형성하도록 유도한다.