본문으로 건너뛰기

golden-example

골든 예제

중급

특정 입력에 대해 AI 모델이 내놓아야 할 가장 이상적이고 정확한 정답 데이터셋이다. LLM의 성능을 정량적으로 평가하고, 시스템 업데이트 시 발생할 수 있는 성능 저하를 감지하는 회귀 테스트의 기준점으로 사용된다.