본문으로 건너뛰기

longitudinal-benchmark

종단적 벤치마크

중급

시간의 흐름에 따라 동일한 대상의 변화를 추적하여 측정하는 평가 방식이다. 본문에서는 에이전트가 단일 작업이 아닌 장기 배포 환경에서 세션을 거치며 성능이 어떻게 변하는지를 평가하는 데 사용된다.