PUCT 알고리즘
MCTS의 선택 단계에서 사용되는 공식으로, 신경망이 예측한 정책 확률과 해당 노드의 방문 횟수를 조합해 탐색 우선순위를 결정한다. 탐색과 활용 사이의 균형을 맞추는 역할을 하며, AlphaZero 등 현대적인 강화학습 모델에서 표준적으로 채택되는 방식이다.