항목 수준 평가
개별 평가 항목(예: 특정 대화 턴, 상황 인스턴스) 단위로 예측 결과와 정답/메타데이터를 공개하는 평가 관행을 말한다. 세부 항목별 레이블과 메타데이터를 제공하면 재현성·재사용성·세부 분석이 가능해져 벤치마크의 투명성과 확장성이 개선된다.