TL;DR
대형 언어 모델의 도메인별 전문화는 모듈형 병합으로 가능하다. 본 연구는 base 모델 크기 N과 병합 전문 수 k를 연결하는 floor+tail 형태의 스케일링 법칙을 제시하고, in-domain 및 cross-domain에서 일관되게 적용되며, 초기 큰 이득이 빨리 나타난 뒤 1/(k+b) 꼬리로 수렴한다. 이를 통해 예산-의사결정이 가능해지며, 멀티태스크 파인튜닝 대신 머징을 예산에 맞춘 대안으로 활용할 수 있다.
왜 중요한가
대형 언어 모델의 도메인별 전문화는 모듈형 병합으로 가능하다. 본 연구는 base 모델 크기 N과 병합 전문 수 k를 연결하는 floor+tail 형태의 스케일링 법칙을 제시하고, in-domain 및 cross-domain에서 일관되게 적용되며, 초기 큰 이득이 빨리 나타난 뒤 1/(k+b) 꼬리로 수렴한다. 이를 통해 예산-의사결정이 가능해지며, 멀티태스크 파인튜닝 대신 머징을 예산에 맞춘 대안으로 활용할 수 있다.
핵심 기여
Unified floor+tail merging law
E[L|N,k]를 L∞(N) + A(N)/(k+b) 형태로 근사하며, L∞(N) = L* + B N^(-β), A(N) = A0 N^(-γ)로 모델 크기 의존성을 표현한다.
대규모 다도메인 검증
10,866개 모델, 0.5B~72B의 백본 크기, 9개 도메인, 4개 병합 규칙(Average, TA, TIES, DARE)에 대해 floor+tail 법칙이 높은 R^2(>0.98)로 데이터에 잘 부합함을 입증.
이론적 기반
Average-merge의 Leading-Ordertail이 1/k로 수렴함을 이론적으로 도출하고, Corollary는 Var[L]이 ≈ Θ(1/k)로 수렴함을 보임.
실무적으로 예측 가능한 설계
세 점(예: k ∈ {1,2,4})으로 전체 k 곡선을 예측하는 간단한 피팅 절차를 제시하고, 예산-제약 하에서 효율적인 k를 추천한다.
전이성과 확장성
다른 backbones(LLaMA, Gemma 등) 및 open-source 모델에서도 동일한 floor+tail 형태가 관측되며, 도메인 혼합은 일반화에 도움이 된다.
핵심 아이디어 이해하기
합성 업데이트의 평균화를 통해 병합된 업데이트의 분산이 k에 대해 1/k로 축소된다. 2차 도함수에 따른 손실의 근사(L(θ0 + δ) ≈ L(θ0) + a^Tδ + 1/2 δ^T H δ)의 기대값을 취하면, 평균 업데이트의 분산에서 1/k 꼬리항이 나타난다. 이 Leading-Order tail은 훅-형(1/(k+b))으로 수렴하며, floor(L∞(N))는 기본 모델의 용량(N) 및 방향 µ와 곡률(H)로 결정된다. TIES/DARE의 전처리도 같은 평균-정규화 합성 원리에 따라 같은 1/k 꼬리를 갖는다. 모델 크기를 키우면 floor가 낮아지고 tail의 진폭도 작아져, 같은 k에서도 CE가 더 낮고 필요한 전문가 수가 줄어든다. 세 점으로 full curve를 예측하는 간단한 피팅은 budget-aware merging에 실용적이다.
방법론
- 설정: N(0.5B~72B), M(9 도메인), k ∈ {1,...,9}, 4개 병합 규칙. 2) 기대 손실: Eb[L|N,k]를 모든 k-조합의 평균으로 계산. 3) Unified law: E[L|N,k] = L∞(N) + A(N)/(k+b)로 근사, L∞(N)=L*+BN^{-β}, A(N)=A0N^{-γ}. 4) 이론적 근거: Theorem 3.1에서 E[L|N,k]의 1/k tail과 2차 근사를 도출. 5) Three-point 예측: L(k)=L∞(N)+A(N)/(k+b)를 {k=1,2,4}로 피팅해 전체 k 범위 예측. 6) 실험 세부: token-level CE로 평가, 30M 토큰, 9도메인 macro-average, 72B 예측 포함.
주요 결과
주요 결과: in-domain에서 k 증가에 따라 CE가 감소하며, k≈5에서 뚜렷한 엘보를 확인. N이 커질수록 floor L∞(N)이 하락하고 tail A(N)가 작아지는 경향을 보이며, 같은 k에서도 더 낮은 CE를 달성한다. 예를 들어 domain-averaged CE는 0.5B에서 0.739에서 32B에서 0.430으로 약 41.9% 감소. cross-domain에서도 같은 floor+tail 법칙이 적용되며, 더 큰 N은 floor를 낮추고 tail을 감소시킨다. gains는 주로 초기의 k에서 집중되며, median R(k)는 k=5에서 85%, k=6에서 90%를 넘는다. 방법 간 차이는 규모가 커질수록 작아지며, k≈8에 이르면 차이가 ≲2% 수준으로 수렴한다. cross-backbone 검증에서 LLaMA-3.2 3B 및 8B에서도 동일한 inverse-tail를 관찰했고, backbones 간 차이는 CE 수준에서 modest하다. 세 점 피팅으로 예측 오차가 작고, 72B 예측도 안정적으로 수행된다. downstream 점수도 초기 이득을 보이나 CE와는 다르게 plateau가 더 빨리 나타나는 경향이 있음.
관련 Figure

도메인 간 평균에서의 머징 성능 흐름을 보여 주며, 4가지 규칙(Average/TA/TIES/DARE) 간 차이가 scale이 커질수록 축소됨을 시사한다. 이 이미지는 후속 분석의 핵심 수렴 양상을 직관적으로 확인시켜 준다.
Average 방식의 전체 도메인 CE vs k 곡선(9도메인 평균). k가 작을수록 급격한 개선이 나타나고, k가 커질수록 1/(k+b) 형태의 꼬리로 수렴한다.

TA가 Early-k 구간에서 작은 우위를 보이나, k가 커질수록 Average와의 차이가 축소됨. Tail 형태의 1/(k+b) 수렴도 동일하게 관찰된다.
TA 방식의 전체 도메인 CE vs k 곡선

TIES 역시 1/(k+b) 꼬리와 elbow 현상을 보이며, k 증가에 따른 차이가 축소된다. 3-4개의 초기 k에서의 차이가 남지만 규모가 커질수록 차이는 작아진다.
TIES 방식의 전체 도메인 CE vs k 곡선

DARE에서도 동일한 floor+tail 법칙이 적용되며, k의 증가에 따른 평균 손실 감소와 분산 축소 현상을 확인할 수 있다.
DARE 방식의 전체 도메인 CE vs k 곡선

도메인별 L∞(N)과 A(N) 추정값이 N 증가에 따라 어떻게 수렴하는지 시각화하며, floor은 N에 따라 감소하고 tail은 상대적으로 작아지는 경향을 보여준다.
L∞(N) 및 A(N) 추정의 도식(도메인/백본 간 비교)

도메인에 따라 tail의 감소 폭이 다르지만, N이 증가하면 tail의 크기가 전반적으로 감소하는 경향이 확인된다. 이는 N이 커질수록 병합의 이득이 줄어드는 원인을 시각적으로 뒷받침한다.
A(N) vs N의 도식(도메인별 차이 포함)

다양한 backbones에서 L∞(N)과 A(N) 모델이 동일한 1/(k+b) 꼬리 형태를 따르는 것을 확인하며, backbones 간 차이는 주로 floor의 위치에서 나타난다.
k에 따른 세 가지 백본의 예측 곡선 비교
기술 상세
A-layer(연구자): 이 논문은 두 축(N, k)으로 모델 병합의 값을 표현하는 floor+tail 형태의 법칙을 제시한다. 제안된 이론은 평균-정규화된 업데이트의 합성에서 k의 증가에 따른 분산 감소가 1/k 꼬리로 이어진다고 보인다. L∞(N)과 A(N)는 각각 base model의 용량과 업데이트 분포의 곡률/공분산 특성에 의해 결정된다. 증명은 평균-합의 업데이트 벡터 vi의 평균 μ와 공분산 Σ, 그리고 구체적 preprocessing 규칙 Ψ(vi)로 정의된 ṽi에 기반한다. Theorem 3.1은 population-averaged L의 두 구성 요소를 L∞(N)와 A(N)/k로 분해하고, 1/k tail의 Leading-Order를 정량화한다. Corollary 3.2는 Var[L]이 1/k로 수렴하는 것을 보여주며, cross-domain에서의 일반화가 tail를 통해 안정화됨을 시사한다. 논문은 세 점 예측으로 전체 k 범위를 충분히 정확히 재현할 수 있음을 실험적으로 뒷받침한다. DARE, TA, TIES, Average 등 다양한 병합 규칙에서 동일한 floor+tail 형태를 관찰하며, backbones 간의 일관성도 나타난다. 4) 실험 설계는 N ∈ {0.5B, 1.5B, 3B, 7B, 14B, 32B, 72B}, k ∈ {1,...,9}, 9도메인, 10,866모델, 4 규칙으로 구성되며, 72B에 대한 예측도 제공한다.
실무 활용
세 점 피팅으로 full 곡선을 예측하고, budget에 맞춘 k를 선택하는 실무 가이드가 제공된다. merging을 multitask SFT의 대안으로 제시하며, expert capacity(LoRA rank, adapter width 등의 조정)은 floor과 tail에 흡수되어 파라미터 축소/확대의 추가 축으로 활용 가능.
- 주어진 예산으로 특정 CE 목표를 달성하기 위해 필요한 k를 예측해 병합 계획 수립
- base 모델 크기와 병합 규모 간의 트레이드오프를 예산 한도 내에서 최적화
- 도메인 간 혼합이 일반화 성능을 어떻게 높이는지 점검하고, 도메인 조합 전략 수립
- 다양한 backbones에 대한 법칙의 전이성을 활용한 설계 검토
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.