rlvr
모델의 출력을 외부 검증기나 보상 모델을 통해 학습시키는 강화학습 기법이다. DeepSeek-R1 등 최신 모델에서 추론 능력을 극대화하기 위해 사용되는 핵심 방법론이다.
단순 프롬프트로 부족하다면? LLM 성능을 극대화하는 파인튜닝 전략
DSDR: 이중 척도 다양성 정규화로 LLM 추론의 pass@k 성능 대폭 향상
직접 만든 모델이 살아남을 수 있을까? 파인튜닝 vs API의 전략적 선택
SageMaker AI 2025 업데이트: 서버리스 파인튜닝부터 실시간 양방향 스트리밍까지
AI가 스스로 훈련을 거부한다면? '탐색 해킹'의 위협