scm
변수 간의 인과 관계를 수학적 방정식과 그래프로 표현한 모델이다. 강화학습에서 환경의 역학을 단순한 확률 분포가 아닌 인과적 메커니즘으로 정의하여 데이터 효율성과 일반화 성능을 높이는 데 기여한다.
이론은 완벽한데 코드는 막막하다면? 인과적 강화학습 실전 구현 가이드