본문으로 건너뛰기
AI Trends
피드
트렌딩
커뮤니티
공지
로그인
피드
트렌딩
커뮤니티
공지
피드백-조건부 증류 (feedback-conditioned distillation) 용어 설명 | AI Trends
feedback-conditioned distillation
피드백-조건부 증류
중급
피드백을 조건으로 한 교정 행동을 모델에 증류하는 방법으로, 토큰 수준의 목표로 활용한다.
비슷한 개념
hindsight-guided-opd
token-level gating
direct-conditional-distillation
mopd
opsd
token-level-divergence
distillation-augmented-rl
sdpo
← 용어 사전 전체 보기