SARSA
현재 상태(State), 행동(Action), 보상(Reward), 다음 상태, 다음 행동의 순서로 학습하는 온폴리시(On-policy) 강화학습 알고리즘이다. 실제 수행한 정책을 기반으로 가치 함수를 업데이트하므로 학습 과정이 안정적이며, 실시간으로 변화하는 메모리 워크로드에 적응하는 데 적합하다.