Temporal-Difference Model Predictive Control (td-mpc) 용어 설명 | AI Trends
td-mpc
Temporal-Difference Model Predictive Control
중급
잠재 공간에서의 온라인 플래닝을 위해 가치 예측과 일시적 차분 손실을 결합한 방법론이다. 관측을 인코더로 잠재로 변환하고, 단일 단계 전이 모델로 롤아웃하여 CEM 같은 최적화기로 행동을 선택한다. Valdi는 이 구조를 따르되 확산 기반 dynamics로 전이 모델을 대체하여 불확실성 표현을 추가했다.