data-contamination
모델 학습 과정에서 평가에 사용될 테스트 데이터가 포함되어 성능이 비정상적으로 높게 측정되는 현상이다. 코드 미공개 시 이를 확인하기 어려워 연구의 진실성을 훼손할 수 있다.
오염되지 않은 데이터로 검증한 로컬 LLM, 드디어 실전 투입 가능할까?
LLM은 지능인가, 아니면 고도로 정교한 통계적 흉내인가?
SOTA 달성했다더니 깃허브는 텅텅? AI 학계의 재현성 위기
당신의 LLM 학습 데이터는 이미 봇에게 오염되었을지도 모릅니다
SOTA 에이전트도 성공률 20% 미만, 장기적 CLI 프로그래밍의 한계