ground-truth
모델의 성능을 평가하기 위해 기준으로 삼는 실제 정답 데이터를 의미한다. RAG 시스템에서는 특정 질문에 대해 반드시 검색되어야 하는 문서나 올바른 답변의 쌍을 구성하여 벤치마크에 활용한다.
정답 없는 LLM 답변, 어떻게 평가할까? LLM-as-a-Judge 완벽 가이드
변호사 징계부터 수조 원 손실까지, AI 실패 사례 한눈에 확인
"블랙박스 RAG는 그만" 성능 측정이 가능한 모듈형 RAG 시스템의 탄생?
AI 에이전트가 왜 실수했는지 모를 때? 추론 과정을 디버깅하는 법
터미널 없이 15분 만에 YOLO 학습 완료? 새로운 객체 탐지 도구 JIET Studio