교차 롤아웃 비판
에이전트가 수행한 여러 실행 경로(롤아웃)들을 서로 비교하고 분석하여, 어떤 행동이 성공적이었고 어떤 부분이 개선되어야 하는지 평가하는 과정입니다. 이를 통해 더 정교한 지식을 정제할 수 있습니다.