AIXI
모든 계산 가능한 환경에서 보상을 극대화하는 이론적으로 완벽한 범용 강화학습 에이전트 모델이다. 하지만 실제 계산이 불가능하다는 특성 때문에 현실에서는 이를 근사하는 모델을 사용한다.