이볼버
배치로 생성된 궤적과 보상 레이블을 읽어 스킬과 실패 레코드를 구조화하여 스킬 은행을 갱신하는 LLM 기반 모듈이다. 고보상 궤적과 저보상 궤적을 대비해 성공의 원리를 추출하고 실패에서 부분적으로 유효한 추론 단계를 보존한다. 은행 용량·보상 기반 순위·병합·삭제 정책을 적용해 점진적으로 은행을 진화시킨다.