evals
LLM이나 AI 에이전트의 성능, 정확도, 안전성 등을 측정하기 위한 벤치마크와 방법론을 설계하는 과정이다. 모델의 실무 적용 가능성을 판단하는 핵심 지표로 쓰인다.
AI 엔지니어의 고민: 지금 전산 언어학 박사 학위를 따는 것이 의미가 있을까?