mbrl
에이전트가 환경의 모델을 직접 학습하여 실제 행동을 취하기 전에 결과를 예측하고 계획을 세우는 강화학습 기법이다. 시행착오를 줄이고 학습 효율을 높이는 데 중요하다.
단순 토큰 예측을 넘어 물리 법칙을 이해하는 AI, 월드 모델의 실체