benchmaxxing
모델의 실제 유용성보다 벤치마크 점수를 높이는 데만 과도하게 집중하는 현상을 의미합니다. 테스트 데이터 오염이나 특정 지표에 대한 과적합으로 인해 리더보드 순위가 실제 성능과 괴리되는 문제를 야기합니다.
DeepSeek가 바꾼 판도, 2025년 LLM 트렌드 총정리
DeepSeek가 바꾼 판도, 2025년 LLM의 핵심은 추론과 RLVR
DeepSeek가 바꾼 판도, 2025년 LLM 핵심 기술 트렌드 총정리