본문으로 건너뛰기

AI Trends

매일 업데이트되는 글로벌 소스의 AI/ML 뉴스를 수집하고 한국어로 요약합니다.

둘러보기

피드 트렌딩 커뮤니티 공지사항

탐색

기술 태그 AI 용어 사전

서비스

서비스 소개 문의

정책

운영 정책 개인정보 처리방침

© 2026 AI Trends. All rights reserved.후원

피드 트렌딩 커뮤니티

홈 트렌딩 검색 커뮤니티 프로필

오즈비 선호도 최적화 (orpo) 용어 설명 | AI Trends

orpo

오즈비 선호도 최적화

고급

별도의 참조 모델 없이 단일 단계에서 지도 학습과 선호도 학습을 동시에 수행하는 최신 정렬 기법이다. 기존 RLHF나 DPO보다 계산 효율성이 높으며 모델의 성능을 정교하게 튜닝하는 데 사용된다.

비슷한 개념

preference-optimization dapo simpo dpo preference-alignment rlhf hrpo mpo

← 용어 사전 전체 보기