본문으로 건너뛰기
LLM을 위한 직접 선호도 최적화(DPO) 실험 시작: 데이터셋 구축 및 학습 가이드 요청 | AI Trends