교차 엔트로피 방법 (cross-entropy-method) 용어 설명 | AI Trends
cross-entropy-method
교차 엔트로피 방법
중급
확률적 최적화 기법으로 행동 시퀀스 분포를 반복적으로 재샘플링하고 상위 해들을 사용해 분포 파라미터를 갱신한다. 플래닝 맥락에서는 후보 행동을 평가해 상위 집합의 평균으로 다음 샘플링 분포를 형성한다. Valdi는 CEM을 사용해 확산으로 생성한 잠재 경로의 가치 합을 최대화하는 행동을 탐색했다.