골든 데이터셋
모델의 성능을 정확하게 측정하기 위해 전문가가 검증한 정답(Ground Truth)이 포함된 고품질의 참조 데이터셋으로, 평가의 기준점이 되는 표준 자료를 의미한다.
에이전트 평가 속도 8.7배 향상: Monday.com의 실전 AI 평가 전략
AI 에이전트 성능 평가, 8.7배 빨라지는 비결은? Monday.com의 노하우 공개
정상 작동하는데 답변이 이상하다면? LLM 관측성으로 결정론적 격차 해소하기
노가다 프롬프트 수정은 끝, AI가 스스로 프롬프트를 설계하는 메타 프롬프팅