에이전트 기반 코딩 평가(agentic-coding-evals)이란 무엇인가요?

Question

Accepted Answer

AI 모델이 독립적인 실행 환경에서 프로그램을 작성하고 테스트를 수행하며 문제를 해결하는 능력을 측정하는 평가 방식이다. 정적 벤치마크와 달리 런타임 환경의 리소스와 상호작용이 결과에 직접적인 영향을 미치므로 인프라 설정이 매우 중요하다.

agentic-coding-evals