형식 선택 그룹 상대 정책 최적화(fs-grpo)이란 무엇인가요?

Question

Accepted Answer

Group Relative Policy Optimization(GRPO)을 변형하여 모델이 정답의 정확도뿐만 아니라 토큰 효율성과 응답 형식의 다양성을 동시에 학습하도록 설계된 강화학습 알고리즘이다. 모델이 문제의 난이도에 맞춰 가장 효율적인 추론 경로를 스스로 선택하도록 유도한다.

fs-grpo

비슷한 개념