본문으로 건너뛰기
RLAIF vs RLHF: AI 피드백을 활용한 강화학습 스케일링 연구 | AI Trends