Harbor
LLM 기반 태스크를 벤치마크하는 Harbor 해시(Harbor harness) 평가 체계로, 각 태스크에 대해 fresh 컨테이너를 제공하고 에이전트를 주입해 실행 경로와 추적 정보를 수집한다.