RecallBench
RecallBench는 장기 메모리 동작의 다양한 실패 모드를 측정하는 벤치마크 도구이다. 시간 추론, 결정 추적, 모순 해결, 최신성 편향, 교차참조 추론 등 여러 평가 항목을 합성 타임라인으로 실행하여 모델의 장기 행동을 재현한다. 이 벤치마크는 단순 검색 성공 여부를 넘어서 운영 환경 근접성 있는 장기 평가를 가능하게 한다.