dpo
두 가지 답변 중 사람이 선호하는 것을 선택한 데이터를 사용하여 모델을 인간의 가치관에 정렬시키는 기법이다. 별도의 보상 모델 없이도 효율적으로 모델의 품질을 높일 수 있다.
RTX 4090으로 시작하는 DPO 실험: 고품질 선호도 데이터셋 구축 전략
단순 프롬프트로 부족하다면? LLM 성능을 극대화하는 파인튜닝 전략
오디오와 비디오의 완벽한 싱크, JavisDiT++로 오픈소스 SOTA 달성
재학습 없이 모델을 키운다? 1B 모델의 파라미터 확장 실험
GPT-5.2보다 15배 저렴하고 14배 빠른 오픈소스 LLM 판사 모델의 등장