MRI-Trust 가중 진화적 융합으로 Training-free 확장 가능한 Darwin Family: 대형 언어모델 추론 능력의 진화적 병합 프레임워크

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

대형 언어모델의 추론능력은 종종 추가 학습에 의존한다. 본 연구는 pretrained 체크포인트에 이미 내재된 latent capabilities를 재구성해 gradient-based training 없이도 추론 성능을 개선할 수 있음을 보인다. MRI-Trust Fusion과 14차원 Genome, Architecture Mapper를 통해 진화적 병합의 탐색 효율성 및 재현성을 높인다.

왜 중요한가

핵심 기여

14‑dimensional adaptive merge genome

각 텐서의 병합을 텐서 단위에서 제어하는 14차원 genome으로 성분별/블록별 혼합 비율과 희소성, MRI 트러스트를 함께 조정한다.

MRI-Trust Fusion

MRI(Static + Probe) 기반 진단 신호와 genome 기반 전략을 학습 가능한 τ로 균형 조정하여 진단 priors와 진화 탐색 간의 적절한 절충을 달성한다.

Architecture Mapper

Transformer 계열과 Mamba 계열 등 이종 아키텍처 간 텐서 매핑을 수행해 cross-architecture breeding의 가능성을 열었다.

DARE-TIES merge kernel

Drop-And-Rescale with Task-Interval Elimination으로 델타를 마스킹하고 재스케일링한 뒤, genome 비율로 파라미터를 재조합하여 파라미터 간섭을 완화한다.

training-free evolutionary merging across scales

4B–35B 사이 모델에서 다윈 패밀리를 다세대에 걸쳐 진화적으로 병합해 초기 부모의 성능을 넘기고 재현 가능한 개선을 달성한다.

핵심 아이디어 이해하기

출발점: 대형 언어모델의 추론은 사전학습에서 형성되며, 후속 학습으로만 성능이 크게 개선되지는 않는다. 본 연구는 gradient-free 방식으로 pretrained 체크포인트의 latent 능력을 재조합해 추론 성능을 훈련 없이 끌어올린다. MRI 기반 기능 중요도와 14차원 genome의 조합으로 텐서 단위의 맞춤형 혼합을 수행하고, Architecture Mapper를 통해 이질적 아키텍처의 구성 요소를 재배합한다. 시행착오를 줄이기 위해 MRI-Trust Fusion으로 진단 priors와 진화 탐색의 비율을 학습 가능한 파라미터 τ로 조절한다. 다윈 프레임워크는 4B에서 35B까지 확장 가능하며, cross-architecture merging 및 다세대 진화를 지원한다. 실험적으로 GPQA Diamond에서 Darwin-27B-Opus가 86.9%를 달성했고, 업데이트된 프레임워크는 동일한 부모에서의 파생 모델에서도 일관된 개선을 보여준다.

방법론

전체 접근 방식은 MRI-Trust Fusion을 통해 진단 priors와 evolutionary exploration 사이의 가중치를 조절하고, 14차원 genome으로 텐서 단위 병합 구성을 표현하며, Architecture Mapper로 호환 텐서를 매핑한 뒤, DARE-TIES Merge Kernel로 최종 가중치를 재조합한다. 입력으로 두 부모 모델 A, B는 공통 기본 θbase를 공유하고 각자의 차이 ∆A, ∆B를 갖는다. 병합된 모델 θM은 θbase + (1 − rfinal(T)) ∆A(T) + rfinal(T) ∆B(T)와 같이 구성된다. MRI(T) = α · Static(T) + (1 − α) · Probe(T)로 텐서의 진단 지표를 계산하고, rMRI(T)와 rgenome(T)을 혼합해 rfinal(T) = τ · rMRI(T) + (1 − τ) · rgenome(T)로 확정한다. Architecture Mapper는 Comp(i, j) = β1 Type(i, j) + β2 Dim(i, j) + β3 Param(i, j)로 텐서 간 호환성을 점수화하고, constrained greedy matching으로 텐서 간 대응을 확립한다. DARE-TIES는 ∆A와 ∆B를 θbase로부터 계산하고 mA, mB 마스크를 곱한 뒤 재스케일링하고, θM = θbase + αk · (mA ⊙ ∆A) + (1 − αk) · (mB ⊙ ∆B)로 혼합한다. Phase 1에서는 proxy fitness로 후보 genome을 선별하고 Phase 2에서 선발된 genome을 실제 모델로 평가한다. CMA-ES 50개 개체, 20세대(Phase 1) 및 5–10세대(Phase 2), SLERP 대신 DARE-TIES를 기본 merge kernel로 사용한다.

주요 결과

주요 벤치마크 결과는 Darwin-27B-Opus가 GPQA Diamond에서 86.9%를 달성하고 1,252개 모델 중 6위에 랭크되었다. 부모 모델 및 다른 정적 병합 기법 대비 일관한 성능 향상을 보였고, 진단 가이드 없이 탐색하는 방법에 비해 더 높은 피크 성능과 더 안정적인 수렴을 보여 주었다. MRI-Trust Fusion의 기여도는 ablation에서 유의하며, MRI 기반 신호를 사용한 경우 GPQA에서 +1.2pp 상승, adaptive τ 설정으로 추가 +0.9pp 상승, 전체적으로 +2.5pp의 개선을 달성한다. 4B–35B 규모에서 유사한 안정 패턴(주목 모듈 보존, FFN 재결합 강도 증가)이 관찰되며, 재귀적 second-generation 진화 및 cross-architecture 변형에서 일관된 일반화가 확인된다. DARE-TIES가 linear interpolation과 SLERP보다 우수한 성능을 보였고, Drop-and-Rescale로 인해 파라미터 간섭이 감소한다.

기술 상세

θA = θbase + ∆A, θB = θbase + ∆B; θM(T) = θbase(T) + (1 − rfinal(T)) ∆A(T) + rfinal(T) ∆B(T); MRI(T) = α · Static(T) + (1 − α) · Probe(T); rMRI(T)는 MRI 기반 merge 비율, rgenome(T)는 genome 기반 비율; rfinal(T) = τ · rMRI(T) + (1 − τ) · rgenome(T); Architecture Mapper는 Comp(i, j) = β1 Type(i, j) + β2 Dim(i, j) + β3 Param(i, j); DARE-TIES는 θM = θbase + αk · (mA ⊙ ∆A) + (1 − αk) · (mB ⊙ ∆B) (αk ∈ {γ, αattn, αffn, αemb}); mA, mB는 Bernoulli 마스크; Phase 1: proxy fitness, Phase 2: 실제 벤치마크 평가; CMA-ES population 50, Generations: Phase 1 20, Phase 2 5–10; merge method weight λ으로 DARE-TIES vs SLERP 간 interpolate

한계점

실험은 공통 프리트레이닝 베이스를 공유하는 부모 모델에 한정되며, 서로 다른 베이스로의 대규모 cross-base 병합은 여전히 도전 과제이다. 진화 탐색은 계산 비용이 완전히 없지 않으며 대규모 모델에 대해 추가 검증이 필요하다.

실무 활용

훈련 없이 사전학습된 체크포인트를 재구성해 추론 능력을 개선하는 프레임워크로, 4B–35B 규모의 모델에 적용 가능하고 다세대 진화 및 cross-architecture 병합도 가능하다.

진화적 병합으로 특정 도메인 추론 능력을 강화하려는 연구자에게 빠른 프로토타이핑을 제공
제조·R&D에서 사전학습된 대규모 모델의 재배치를 위한 비용 절감형 성능 튜닝
Cross-architecture 병합을 통한 하이브리드 인퍼런스 파이프라인 구성(Transformer+Mamba 계열 결합)

코드 공개 여부: 공개

키워드

evolutionary merginggradient-free weight-space recombinationMRI-Trust Fusionmerge genomeArchitecture Mappercross-architecture breedingGPQA Diamond