본문으로 건너뛰기
AI Trends
피드
트렌딩
콜로세움
공지
로그인
피드
트렌딩
콜로세움
공지
벤치마크 조작 (benchmark-fudging) 용어 설명 | AI Trends
benchmark-fudging
벤치마크 조작
입문
모델의 성능을 실제보다 좋게 보이게 하기 위해 평가 데이터를 선별하거나 유리한 조건에서만 테스트하는 행위이다. AI 업계의 신뢰도 문제와 직결된다.
비슷한 개념
benchmark-gaming
benchmark-contamination
benchmaxxing
benchmarking
evals
benchmarks
eval-awareness
benchmark-shaped-problem-solving
← 용어 사전 전체 보기