Gumbel MCTS
Gumbel-Max 트릭을 MCTS에 결합하여 시뮬레이션 횟수가 적은 상황에서도 정책을 효과적으로 개선하는 기법이다. 기존 PUCT보다 적은 연산량으로도 높은 수준의 의사결정 성능을 보여주며, 특히 액션 공간이 넓은 환경에서 탐색 효율성을 극대화하기 위해 설계되었다.