친칠라 최적화
모델 파라미터 수와 학습 데이터 토큰 수 사이의 최적의 비율을 정의한 법칙이다. 특정 컴퓨팅 예산 내에서 모델 성능을 극대화하기 위한 데이터 스케일링 가이드를 제공한다.