친칠라 스케일링 법칙
모델의 파라미터 수와 학습 데이터 토큰 수 사이의 최적의 균형을 정의한 법칙이다. 특정 연산 자원 내에서 손실을 최소화하기 위해 모델 크기와 데이터 양을 어떻게 확장해야 하는지 가이드라인을 제공한다.