드리머 V3
세계 모델(World Model) 기반의 강화학습 알고리즘으로, 에이전트가 환경의 동역학을 학습하여 가상 환경에서 상호작용을 시뮬레이션하고 정책을 최적화한다. 고정된 하이퍼파라미터로 다양한 도메인에서 우수한 성능을 보이는 것이 특징이다.