핵심 요약
사전 학습(Pretraining)은 모델의 성능 한계를 결정하는 가장 중요한 단계임에도 불구하고, 막대한 비용과 기업의 비공개 정책으로 인해 연구가 제한적이었다. 이 논문은 3B 규모의 모델을 8T 토큰으로 학습시키며 200회 이상의 대조 실험을 수행하여, 단순히 데이터 양을 늘리는 것보다 데이터 처리의 깊이(Quality)를 고도화하는 것이 성능 향상에 훨씬 경제적이고 효과적임을 입증했다.
왜 중요한가
사전 학습(Pretraining)은 모델의 성능 한계를 결정하는 가장 중요한 단계임에도 불구하고, 막대한 비용과 기업의 비공개 정책으로 인해 연구가 제한적이었다. 이 논문은 3B 규모의 모델을 8T 토큰으로 학습시키며 200회 이상의 대조 실험을 수행하여, 단순히 데이터 양을 늘리는 것보다 데이터 처리의 깊이(Quality)를 고도화하는 것이 성능 향상에 훨씬 경제적이고 효과적임을 입증했다.
핵심 기여
Data Darwinism 프레임워크
단순 필터링부터 고차원 지식 합성까지 데이터 처리 단계를 L0에서 L9까지 체계화한 10단계 Taxonomy를 제시하여 데이터 품질 관리의 표준 방법론을 정립했다.
2단계 적응형 학습 커리큘럼
6T 토큰의 기초 언어 학습(Stage 1)과 2T 토큰의 추론 능력 강화 학습(Stage 2)으로 구성된 최적의 학습 경로를 설계하여 토큰 효율성을 극대화했다.
데이터 처리 깊이의 효용성 입증
L4(생성적 정제)와 L5(인지적 완성) 처리가 단순한 데이터 양의 확장보다 복잡한 추론 능력 향상에 더 큰 기여를 한다는 사실을 200개 이상의 Ablation Study로 확인했다.
평가 프로토콜의 왜곡 분석
PPL 기반 평가와 생성 기반 평가 사이의 순위 역전 현상을 분석하여, QA 데이터 학습이 모델 성능 해석에 미치는 영향을 기술적으로 규명했다.
핵심 아이디어 이해하기
기존의 LLM 학습은 더 많은 데이터를 쏟아붓는 Scaling Law에 의존해왔으나, 데이터의 양이 늘어날수록 저품질 데이터에 의한 성능 정체 문제가 발생한다. Transformer 아키텍처에서 Self-Attention은 모든 토큰 간의 관계를 학습하지만, 데이터 자체에 논리적 비약이 있거나 노이즈가 많으면 모델은 유의미한 패턴을 추출하는 데 어려움을 겪는다.
이 논문은 'Data Darwinism' 개념을 통해 데이터를 모델이 학습하기 가장 좋은 형태로 진화시킨다. 기초적인 규칙 기반 필터링(L2)을 넘어, LLM을 활용해 텍스트의 논리 구조를 재편하는 Generative Refinement(L4)와 전문가용 문서의 생략된 추론 과정을 보완하는 Cognitive Completion(L5)을 적용한다. 이는 모델이 복잡한 개념을 학습할 때 겪는 인지적 장벽을 낮추는 역할을 한다.
결과적으로 정교하게 가공된 8T 토큰을 학습한 3B 모델은, 단순히 양으로 승부한 7B 규모의 모델(OLMo-3)과 대등하거나 수학/코드 분야에서 이를 능가하는 성능을 보여준다. 이는 모델의 파라미터 크기보다 데이터에 담긴 '지식의 밀도'와 '논리적 연결성'이 더 중요함을 시사한다.
방법론
Data Darwinism 프레임워크는 데이터를 L0(수집)부터 L9(세계 시뮬레이션)까지 구분한다. 핵심인 L4 Generative Refinement는 [노이즈가 섞인 원문 텍스트를 입력으로] → [LLM이 핵심 개념 추출 및 논리 구조 재편 연산을 수행해] → [정제된 텍스트 결과를 얻고] → [데이터의 정보 밀도를 높여 모델의 학습 효율을 극대화하는 의미]를 가진다. L5 Cognitive Completion은 [전문가용 기술 문서를 입력으로] → [LLM이 생략된 중간 추론 단계를 생성하는 연산을 수행해] → [명시적 추론 체인이 포함된 데이터를 얻고] → [모델의 복잡한 문제 해결 능력을 직접적으로 배양하는 의미]를 가진다.
학습은 2단계 커리큘럼으로 진행된다. Stage 1(6T 토큰)에서는 Common Crawl 기반의 웹 텍스트(68.2%)를 중심으로 기초 언어 능력을 형성한다. 이때 Global Batch Size를 1024에서 4096까지 점진적으로 늘리는 전략을 사용한다. Stage 2(2T 토큰)에서는 추론 밀도를 높이기 위해 QA 데이터와 L4/L5로 정제된 과학 및 코드 데이터 비중을 70%까지 확대하여 고차원 지식을 주입한다.
도메인별 성능 포화(Saturation)를 실시간 모니터링하여 데이터 믹스를 조정한다. 일반 지식 벤치마크가 1T 토큰 지점에서 성능 향상이 둔화되는 반면, 코드와 과학 분야는 지속적인 학습이 필요함을 확인하고 Stage 2에서 해당 도메인의 비중을 공격적으로 높였다. 또한 Cosine Learning Rate Decay를 적용하여 Stage 2 말기에 모델의 지식을 안정적으로 고착화했다.
주요 결과
daVinci-3B 모델은 종합 평균 점수 51.72를 기록하여, 파라미터 수가 2배 이상인 OLMo-3 7B(51.65)와 대등한 성능을 달성했다. 특히 수학적 추론 능력을 측정하는 MATH 벤치마크에서는 62.80점을 기록하여 OLMo-3 7B(39.60)를 23점 이상의 차이로 압도했다. 코드 생성 능력(HumanEval)에서도 61.64점을 기록하며 7B급 모델들과 어깨를 나란히 했다.
데이터 처리 깊이에 따른 Ablation 실험 결과, L3(모델 기반 필터링) 대비 L4(생성적 정제)를 적용했을 때 MATH 점수가 7.00점 향상되는 비약적인 결과를 보였다. 이는 동일한 양의 데이터를 학습하더라도 논리적 구조를 정제하는 과정이 복잡한 추론 문제 해결에 결정적인 영향을 미침을 수치로 증명한 것이다.
평가 방식에 따른 차이 분석에서는 QA 데이터 비중이 높아질수록 PPL(Perplexity) 기반 평가보다 생성(Generative) 기반 평가에서 모델의 순위가 더 높게 나타나는 경향을 확인했다. 이는 QA 형태의 학습이 모델의 잠재적 지식을 실제 답변으로 인출(Surface and organize)하는 능력을 강화하기 때문으로 분석됐다.
기술 상세
daVinci-LLM은 Qwen2 아키텍처를 기반으로 하며, 36개 레이어, 2048 히든 차원, 16개 Attention Head를 갖춘 3.09B 파라미터 모델이다. GQA(Grouped-Query Attention)를 사용하여 메모리 대역폭 효율을 높였으며, SwiGLU 활성화 함수와 RMSNorm을 적용했다. RoPE(Rotary Position Embedding)의 베이스 주파수를 10000으로 설정하여 긴 문맥에 대한 일반화 성능을 확보했다.
데이터 처리의 핵심인 L4/L5 단계에서는 Qwen3-235B와 같은 강력한 교사 모델을 활용했다. L4 단계에서는 원문의 의미를 보존하면서 서술적 노이즈를 제거하고 핵심 수식을 추출하는 프롬프트를 사용했으며, L5 단계에서는 전문가용 문서의 논리적 비약을 메우기 위해 'Why'를 설명하는 내러티브를 추가하도록 설계했다.
학습 안정성을 위해 Stage 1-1에서는 Constant Learning Rate(3e-4)를 유지하다가 Stage 1-2에서 Cosine Decay를 시작하는 하이브리드 스케줄을 채택했다. 또한 QA 데이터 학습 시 질문 토큰을 마스킹하는 전략이 성능에 미치는 영향이 미미함을 발견하여, 질문과 답변을 모두 학습에 활용함으로써 데이터 효율성을 높였다.
한계점
특정 도메인(코드 등)의 QA 데이터 다양성이 부족할 경우, 높은 농도의 QA 학습이 오히려 해당 도메인의 성능 저하(Overfitting)를 유발할 수 있음을 언급했다. 또한 L5 합성 데이터의 경우 소스 데이터와의 정렬은 강하지만 타 도메인으로의 지식 전이(Cross-domain transfer) 효과는 제한적일 수 있다는 점을 한계로 지적했다.
실무 활용
제한된 컴퓨팅 자원으로 고성능 LLM을 구축해야 하는 기업이나 연구소에 실질적인 데이터 처리 및 학습 가이드를 제공한다.
- 3B 규모의 경량 모델로 7B급 성능을 구현하여 온디바이스 AI 서비스 구축
- Data Darwinism 프레임워크를 활용한 고효율 도메인 특화(수학, 과학, 코드) 데이터 파이프라인 설계
- 학습 과정 중 성능 포화 지점을 파악하여 데이터 믹스를 동적으로 최적화하는 MLOps 워크플로 적용
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.