AI 피드백 기반 강화학습
인간 대신 성능이 뛰어난 AI 모델이 다른 모델의 응답을 평가하고 피드백을 주어 학습시키는 방식으로, 비용 효율성과 확장성이 매우 높다.
DeepSeek-R1의 비밀? LLM 성능을 극대화하는 3가지 강화학습 전략