agentic-evals
에이전트 기반 평가
AI 모델이 단순히 텍스트를 생성하는 것을 넘어, 실제 환경에서 코드를 작성하고 실행하며 도구를 사용하는 능력을 측정하는 평가 방식이다. 정적 벤치마크와 달리 실행 환경(런타임)의 자원과 설정이 결과에 직접적인 영향을 미친다.
에이전트 기반 평가
AI 모델이 단순히 텍스트를 생성하는 것을 넘어, 실제 환경에서 코드를 작성하고 실행하며 도구를 사용하는 능력을 측정하는 평가 방식이다. 정적 벤치마크와 달리 실행 환경(런타임)의 자원과 설정이 결과에 직접적인 영향을 미친다.