후회 최소화 알고리즘
불완전 정보 게임에서 최적의 전략을 찾기 위해 과거의 잘못된 선택인 후회를 최소화하는 방향으로 학습하는 알고리즘이다. 각 의사결정 시점에서 다른 선택을 했을 경우를 가정하여 후회 수치를 계산하고 이를 누적하여 다음 전략 수립에 반영함으로써 내쉬 평형에 도달한다.
구글 딥마인드 AlphaEvolve, 스스로 진화하며 인간을 뛰어넘는 AI 알고리즘 설계