repeat-curse
언어 모델이 특정 문구나 토큰을 무한히 반복해서 생성하는 현상으로, 주로 모델의 크기가 작거나 학습 데이터의 다양성이 부족할 때 발생한다.
GRPO로 코드 예측 72% 달성했지만 정체... 돌파구는?