ndcg
검색 결과의 순위와 각 결과의 관련성을 동시에 고려하여 검색 품질을 평가하는 지표이다. 상위 결과에 관련성이 높은 문서가 배치될수록 높은 점수를 부여하며, 벤치마크에서 모델의 성능을 비교하는 핵심 척도로 쓰인다.
RAG 시스템의 실패 원인을 정확히 짚어내는 3가지 핵심 지표와 평가 전략
리랭커 쓰면 느려진다? 오히려 70% 빨라지는 RAG 최적화의 비밀
감(Vibe)으로 하는 검색 랭킹 테스트는 그만, LLM으로 정밀 평가하기
임베딩 모델 선택, MTEB 순위가 전부가 아닙니다: 32배 비용 절감의 비밀