시퀀스 수준 강화학습
시퀀스 수준 강화학습은 전체 생성 경로의 반환(Return)을 단위로 정책을 갱신하는 접근이다. 이 논문에서는 토큰 수준 보상 대신 전체 상호작용 궤적의 성공 여부와 도구 사용 비용을 결합해 보상을 산정한다. 길이 편향과 도구 상호작용 깊이를 정규화하는 것이 안정적 최적화에 중요하다.