본문으로 건너뛰기
AI Trends
피드
트렌딩
커뮤니티
공지
로그인
피드
트렌딩
커뮤니티
공지
대조적 증거 정책 최적화 (cepo) 용어 설명 | AI Trends
cepo
대조적 증거 정책 최적화
중급
CEPO는 올바른 정답 r+ 와 잘못된 정답 r−를 대조적으로 고려하여 토큰 yt의 신호를 조정하는 자기지도 학습 방식이다.
비슷한 개념
contrastive-prompting
sdpo
contrastive-learning
self-supervised-learning
contrastive-reflection
contrastive-feedback
contrastive-training
self-supervision
← 용어 사전 전체 보기