benchmark-contamination
학습 데이터에 평가용 문제가 포함되어 모델의 성능이 실제보다 높게 측정되는 현상이다. 거대 모델의 신뢰성을 저해하는 주요 요인으로 꼽히며 이를 방지하기 위한 엄격한 데이터 필터링이 요구된다.
LLM의 '창발적 이해'는 환상일까? 통계적 모방과 일반화의 경계
LLM은 지능인가, 아니면 고도로 정교한 통계적 흉내인가?