double-descent
모델 복잡도가 증가할 때 성능이 악화되었다가 다시 개선되는 현상이다. 이는 과파라미터화된 모델이 단순 암기를 넘어 데이터의 내재적 구조를 학습하는 과정을 묘사하는 핵심 이론으로 활용된다.
데이터 7천 개에 파라미터 5천만 개? 과적합의 미스터리를 풀다
LLM의 '창발적 이해'는 환상일까? 통계적 모방과 일반화의 경계
LLM은 지능인가, 아니면 고도로 정교한 통계적 흉내인가?