핵심 요약
기존의 LLM 학습 법칙은 학습 단계의 효율성만 강조했지만, 실제 서비스에서는 추론 비용이 전체 예산의 큰 비중을 차지합니다. 이 논문은 추론 시 여러 번 시도하여 정답을 찾는 '테스트 시간 스케일링' 상황을 고려할 때, 모델을 기존 상식보다 훨씬 더 많이 학습(오버트레이닝)시키는 것이 전체 비용 대비 성능 면에서 가장 유리함을 수학적으로 입증했습니다.
왜 중요한가
기존의 LLM 학습 법칙은 학습 단계의 효율성만 강조했지만, 실제 서비스에서는 추론 비용이 전체 예산의 큰 비중을 차지합니다. 이 논문은 추론 시 여러 번 시도하여 정답을 찾는 '테스트 시간 스케일링' 상황을 고려할 때, 모델을 기존 상식보다 훨씬 더 많이 학습(오버트레이닝)시키는 것이 전체 비용 대비 성능 면에서 가장 유리함을 수학적으로 입증했습니다.
핵심 기여
Train-to-Test (T2) 통합 스케일링 법칙 제안
모델 크기(N), 학습 토큰 수(D), 추론 샘플 수(k)를 동시에 변수로 설정하여 전체 연산 예산 내에서 최적의 성능을 도출하는 통합 최적화 프레임워크를 구축했다.
손실 및 정확도 기반의 이중 모델링 접근
Negative Log-Likelihood(NLL) 손실 함수와 pass@k 정확도라는 서로 다른 지표를 사용하는 두 가지 모델링 방식을 통해 오버트레이닝의 필요성을 일관되게 증명했다.
사후 학습(Post-training) 이후의 유효성 검증
지도 학습 기반 미세 조정(SFT)을 거친 후에도 T2 법칙이 예측한 최적의 트레이드오프 관계가 유지됨을 실험적으로 확인하여 실제 배포 환경에서의 유용성을 입증했다.
핵심 아이디어 이해하기
기존의 Chinchilla 법칙은 모델의 가중치를 갱신하는 '학습' 과정에서의 효율성에만 집중했다. 하지만 실제 환경에서는 학습된 모델을 수만 번 추론에 사용하며, 특히 어려운 문제는 여러 번 시도(Sampling)하여 정답을 찾는 과정이 포함된다. 이때 작은 모델은 한 번의 추론에 드는 연산량이 적어 같은 비용으로 더 많은 시도를 할 수 있다는 장점이 있다.
이 논문은 학습 비용과 추론 비용을 합산한 전체 예산을 기준으로 최적점을 다시 정의한다. 작은 모델은 성능이 낮지만, 이를 '더 많은 데이터 주입(오버트레이닝)'과 '더 많은 추론 시도'로 보완하면 큰 모델을 한 번 사용하는 것보다 훨씬 효율적이다. 이는 임베딩 공간에서 모델이 지식을 더 밀도 있게 학습하도록 유도하여, 추론 시 발생하는 연산 효율성을 극대화하는 원리이다.
결과적으로 파라미터당 20개의 토큰을 학습시키라는 기존의 권고안은 추론 단계의 이득을 간과한 것이다. 실제 서비스용 모델은 이보다 수십 배 더 많은 데이터를 학습하여 모델 크기를 줄여야 하며, 이는 최근 Llama 3나 Gemma 2와 같은 고성능 소형 모델들이 왜 엄청난 양의 데이터로 학습되는지에 대한 이론적 근거를 제공한다.
방법론
전체 연산 예산을 학습 비용(6ND)과 추론 비용(2Nk)의 합으로 정의하고, 이를 제약 조건으로 하여 성능을 극대화하는 최적의 N, D, k 조합을 찾는 최적화 문제를 구성했다.
첫 번째 접근 방식은 Chinchilla의 손실 함수에 k에 대한 거듭제곱 법칙 항을 추가한 형태를 사용한다. [모델 크기 N, 데이터 양 D, 시도 횟수 k를 입력으로] → [각 요소의 거듭제곱 역수를 합산하는 연산을 수행해] → [예상 손실 값 L을 얻고] → [이 값이 최소가 되는 지점을 찾아 최적의 학습/추론 비율을 결정한다].
두 번째 접근 방식은 pass@k 정확도를 직접 모델링하기 위해 Beta 분포를 도입했다. [단일 샘플 성공 확률 p의 분포를 입력으로] → [k번 시도 중 최소 한 번 성공할 확률인 1-(1-p)^k의 기댓값을 적분 연산해] → [최종 pass@k 정확도를 얻고] → [이 정확도가 최대화되는 모델 크기와 학습량을 도출한다]. 이 과정에서 문제별 난이도 편차를 반영하여 단순 평균보다 정확한 예측을 가능하게 했다.
주요 결과
8개의 벤치마크 과제에서 실험한 결과, 추론 비용을 포함할 경우 최적의 모델 크기는 Chinchilla 법칙이 권장하는 것보다 최대 수십 배 작아져야 하며, 학습 데이터 양은 그만큼 늘어나야 함이 확인됐다. 예를 들어 동일한 총 예산 하에서 Chinchilla 최적 모델(901M)보다 T2 최적 모델(37M~149M)이 ARC-Easy 등에서 더 높은 pass@k 성능을 기록했다.
또한 SFT(Supervised Fine-tuning) 이후에도 이러한 경향은 유지되었다. 오버트레이닝된 모델은 미세 조정 시 성능 향상 폭이 상대적으로 적다는 한계가 있음에도 불구하고, 초기 베이스 모델 단계에서 확보한 높은 지식 밀도 덕분에 최종적인 추론 효율성에서 여전히 우위를 점하는 것으로 나타났다.
기술 상세
T2 스케일링 법칙은 학습 예산(C_train)과 추론 예산(C_inf)을 통합한 목적 함수를 최적화한다. 손실 함수 모델링에서는 k=1일 때 기존 Chinchilla 수식으로 수렴하도록 설계하여 하위 호환성을 확보했으며, k가 증가함에 따라 손실이 감소하는 속도를 결정하는 감쇠 계수(gamma)를 실험적으로 도출했다.
정확도 모델링에서는 Jensen의 부등식으로 인해 발생하는 정확도 과대평가 문제를 해결하기 위해 Beta 분포 기반의 확률 모델을 사용했다. 이는 모델의 평균 성능뿐만 아니라 문제 난이도에 따른 성능 분포를 함께 고려하여 실제 pass@k 성능을 더 정밀하게 예측한다. 실험은 5M에서 901M 파라미터 사이의 106개 체크포인트를 활용했으며, 최대 120B 토큰까지의 학습 데이터를 통해 오버트레이닝 영역에서의 법칙 유효성을 검증했다.
한계점
본 연구는 1B 미만의 소형 모델들을 중심으로 실험되었으므로, 수십B 이상의 거대 모델에서도 동일한 스케일링 계수가 유지되는지에 대한 추가 검증이 필요하다. 또한 Transformer 아키텍처에 특화된 세부적인 추론 비용 모델(KV 캐시 등)은 고려되지 않았다.
실무 활용
실제 LLM 서비스를 운영하는 엔지니어가 모델 학습 예산과 예상 추론 트래픽을 고려하여 가장 비용 효율적인 모델 크기와 학습 데이터 양을 결정하는 가이드라인으로 활용할 수 있다.
- 추론 시 Self-Consistency나 여러 번의 샘플링을 사용하는 추론 엔진 최적화
- 고정된 추론 예산 내에서 최대 성능을 내기 위한 소형 모델의 오버트레이닝 전략 수립
- 학습 비용과 운영 비용의 총합(TCO)을 최소화하는 모델 아키텍처 설계
코드 공개 여부: 비공개
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.