장기 호라이즌 평가 (long-horizon-evaluation) 용어 설명 | AI Trends
long-horizon-evaluation
장기 호라이즌 평가
중급
단일 질의응답이 아니라 수일 또는 수개월에 걸친 긴 작업 흐름 속에서 에이전트의 성능을 측정하는 방식이다. 에이전트가 과거의 작업 맥락을 기억하고 시간이 지남에 따라 지식을 축적하여 더 복잡한 문제를 해결하는지 평가한다. 프로덕션 환경에서의 실질적인 에이전트 성능을 파악하는 데 중요하다.