f1-score
정밀도와 재현율의 조화 평균으로, 주석 작업에서 정답이 명확하지 않을 때 한 작업자를 기준으로 다른 작업자의 성과를 평가하는 대안 지표로 쓰인다.
98.6% 정확도 달성, 베트남어 AI 텍스트 탐지를 위한 하이브리드 모델
엔티티와 관계 추출, 어노테이터 간 일치도 어떻게 측정할까?
도형은 못 읽고 텍스트만 읽는 VLM? 공간 인식의 치명적 약점 발견