스텝 레벨 강화학습
각 인터페이스 조작 스텝(탭, 스와이프, 텍스트 입력 등)을 별도의 행동 단위로 정의하고 그 보상 신호로 정책을 학습시켜 장기적 작업 성공률을 높이는 세부 행동 중심의 RL 접근법이다.