fs-grpo
형식 선택 그룹 상대 정책 최적화
Group Relative Policy Optimization(GRPO)을 변형하여 모델이 정답의 정확도뿐만 아니라 토큰 효율성과 응답 형식의 다양성을 동시에 학습하도록 설계된 강화학습 알고리즘이다. 모델이 문제의 난이도에 맞춰 가장 효율적인 추론 경로를 스스로 선택하도록 유도한다.
형식 선택 그룹 상대 정책 최적화
Group Relative Policy Optimization(GRPO)을 변형하여 모델이 정답의 정확도뿐만 아니라 토큰 효율성과 응답 형식의 다양성을 동시에 학습하도록 설계된 강화학습 알고리즘이다. 모델이 문제의 난이도에 맞춰 가장 효율적인 추론 경로를 스스로 선택하도록 유도한다.