롤링 요약
대화형 워크플로에서 과거 대화를 누적 저장하는 대신 주기적으로 과거 발화들을 요약해 토큰 길이를 제한하는 방식으로, 입력 컨텍스트 크기 증가를 억제해 추론 비용과 컨텍스트 오버헤드를 줄인다. 요약 주기와 요약 길이는 정확도·비용 균형을 결정하는 파라미터다.