AI 모델 평가
LLM이나 AI 에이전트의 성능, 정확도, 안전성 등을 측정하기 위한 벤치마크와 방법론을 설계하는 과정이다. 모델의 실무 적용 가능성을 판단하는 핵심 지표로 쓰인다.