보상 변조 스파이크 시간 의존 가소성
뉴런 간의 연결 강도를 조절하는 STDP 규칙에 외부 보상 신호를 결합한 학습 기법이다. 보상이 주어질 때만 시냅스 가소성을 활성화하여 스파이킹 신경망이 특정 목표를 달성하도록 강화학습을 수행하게 돕는다.