다음 상태 신호
에이전트의 행동 직후 발생하는 모든 형태의 피드백(사용자 응답, 시스템 상태 변화 등)을 의미합니다. 이를 실시간 학습 데이터로 활용함으로써 에이전트가 실제 운영 환경에서 지속적으로 성능을 개선할 수 있게 합니다.