디시전 트랜스포머
강화학습 문제를 시퀀스 모델링 문제로 치환하여 Transformer 아키텍처를 적용한 프레임워크이다. 과거의 상태, 행동, 보상을 입력 시퀀스로 받아 미래의 행동을 예측하며, 오프라인 강화학습 환경에서 강력한 성능을 발휘한다.