시행착오 학습
모델이 다양한 시나리오에서 여러 행동을 시도하고 그 결과에 따른 피드백(보상)을 통해 최적의 전략을 찾아가는 학습 방식이다. AlphaGo가 바둑을 배운 방식과 유사하며, Smack Technologies가 군사 작전 계획 모델을 훈련시키는 핵심 기법이다.