다중 암 밴딧
여러 선택지 중 어떤 것을 선택해야 최대 보상을 얻을지 결정하는 확률적 최적화 모델이다. 각 선택지의 보상 분포를 모르는 상태에서 새로운 정보를 얻기 위한 탐색과 기존 정보를 이용한 활용 사이의 균형을 맞추는 것이 핵심이다.