Stanford OnlineAI/ML조회 2회

사전 학습의 미래: 다음 토큰 예측에서 차세대 지능으로

NVIDIA와 Mistral AI의 연구를 바탕으로 LLM 사전 학습 시 데이터의 순서 최적화, 추론 데이터의 조기 주입, 그리고 강화 학습 기반 목적 함수가 모델 지능에 미치는 영향을 다룹니다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

단순한 '다음 토큰 예측'을 넘어, 사전 학습 단계에서부터 추론 데이터를 전략적으로 배치하고 강화 학습 목적 함수를 도입함으로써 모델의 논리적 사고 능력을 근본적으로 향상시킬 수 있다.

배경

스탠포드 대학교의 CS25 세미나 시리즈 중 하나로, Mistral AI의 Shrimai Prabhumoye 박사가 LLM 사전 학습의 최신 트렌드와 연구 결과를 발표했다.

대상 독자

LLM 아키텍처 및 학습 파이프라인을 설계하는 AI 연구자, 데이터 엔지니어, 대규모 모델 학습에 관심 있는 개발자

의미 / 영향

이 연구는 LLM 학습의 패러다임을 '양적 팽창'에서 '질적 순서와 사고 과정의 학습'으로 전환시킨다. 개발자들은 이제 방대한 데이터를 무작위로 밀어넣는 대신, 추론 데이터를 초기에 배치하고 강화 학습 목적 함수를 사전 학습에 도입함으로써 훨씬 적은 비용으로 똑똑한 모델을 구축할 수 있게 될 것이다.

챕터별 상세

01:26

SOTA LLM 구축을 위한 4대 핵심 요소

최고 성능의 LLM을 만들기 위해서는 스마트 데이터, 스마트 아키텍처, 스마트 알고리즘, 그리고 팀 간의 스마트 협업이라는 네 가지 기둥이 필수적이다. 특히 데이터 큐레이션, 필터링, 중복 제거 전략과 더불어 Mamba-2와 같은 하이브리드 아키텍처의 진화가 모델 성능을 결정짓는다. 발표자는 NVIDIA 재직 시절 구축한 Nemotron 시리즈의 데이터셋(MIND, Nemotron-CC 등)이 어떻게 오픈소스로 공개되어 생태계에 기여했는지 언급했다.

SOTA(State-of-the-Art)는 현재 기술 수준에서 가장 높은 성능을 의미한다.

06:28

데이터 잠재력 극대화를 위한 2단계 사전 학습

수조 개의 토큰을 학습할 때 데이터 소스별 가중치와 학습 순서를 결정하는 것은 매우 복잡한 문제이다. 연구 결과에 따르면, 1단계에서는 데이터 다양성을 강조하기 위해 웹 크롤링 데이터를 주로 사용하고, 2단계에서 고품질 데이터(수학, 코드, 논문 등)의 비중을 높이는 '2단계 사전 학습' 방식이 효과적이다. 이 방식을 적용했을 때 무작위 순서 대비 평균 정확도가 3.4%, 자연 분포 대비 17% 향상되는 결과가 나타났다.

12:31

추론 능력의 조기 주입: Front-Loading Reasoning

기존에는 사전 학습에서 지식을 쌓고 사후 학습(Post-training)에서 추론 능력을 가르쳤으나, 이는 기반이 약한 집을 짓는 것과 같다. 사전 학습 단계에서부터 추론 스타일의 데이터를 시스템적으로 주입하는 'Front-loading' 전략을 사용하면 모델의 논리적 토대가 강화된다. 실험 결과, 사전 학습에 추론 데이터를 포함한 모델은 SFT 이후에도 성능 우위를 유지하며, 특히 복잡한 수학 벤치마크(AIME)에서 최대 39.3%의 성능 향상을 보였다.

Front-loading은 중요한 작업을 초기 단계에 집중 배치하는 전략을 의미한다.

21:43

RLP: 사전 학습 목적 함수로서의 강화 학습

단순히 텍스트를 관찰하는 '관찰 학습'을 넘어 모델이 스스로 사고하며 배우는 '실행 학습'을 위해 RLP(Reinforcement as a Pretraining objective)를 제안했다. 모델이 다음 토큰을 예측하기 전 명시적인 '사고 과정(Thought)'을 생성하게 하고, 이 사고가 예측 정확도 향상에 기여한 정도를 정보 이득(Information Gain) 기반의 보상으로 제공한다. 이 기법은 고품질 데이터가 부족한 상황에서도 모델이 데이터의 논리적 구조를 더 깊이 이해하게 만든다.

정보 이득(Information Gain)은 특정 정보를 알게 됨으로써 불확실성이 얼마나 감소했는지를 측정하는 지표이다.

37:35

RLP의 성능 검증 및 효율성

RLP를 적용한 Qwen-1.7B 모델은 일반적인 사전 학습 모델 대비 정확도가 19% 향상되었으며, 동일한 연산량(FLOPs)을 사용한 비교군보다도 뛰어난 성능을 보였다. 특히 2000억 개의 토큰을 추가로 학습시킨 모델보다 단 2억 5천만 개의 토큰으로 RLP 학습을 진행한 모델의 성능이 더 높게 나타났다. 이는 강화 학습 목적 함수가 데이터 효율성을 극적으로 높일 수 있음을 시사한다.

46:15

결론 및 향후 전망

사전 학습은 이제 단순한 데이터 주입을 넘어 커리큘럼 설계, 추론 데이터의 전략적 배치, 강화 학습의 결합으로 진화하고 있다. 모델이 '무엇을 말할지'뿐만 아니라 '어떻게 생각할지'를 사전 학습 단계에서부터 가르치는 것이 차세대 지능형 모델의 핵심이다. 발표자는 데이터 다양성과 고품질 데이터의 균형, 그리고 명시적인 사고 과정을 유도하는 학습 방식이 LLM의 한계를 돌파할 열쇠라고 강조했다.

실무 Takeaway

사전 학습 데이터를 1단계(다양성 중심)와 2단계(고품질 중심)로 나누어 순차적으로 학습시키면 무작위 학습 대비 성능을 17% 이상 향상시킬 수 있다.
추론 능력을 사후 학습(SFT/RLHF)에만 의존하지 말고 사전 학습 단계에서부터 추론 데이터를 주입해야 모델의 논리적 기반이 견고해진다.
모델이 예측 전 스스로 사고하게 하고 보상을 주는 RLP 기법을 사용하면, 적은 양의 데이터로도 대규모 추가 학습 모델을 능가하는 데이터 효율성을 얻을 수 있다.
고품질 데이터의 반복 학습(Epoch) 횟수를 데이터 소스별로 최적화하여 정보 이득이 감소하기 직전까지 학습시키는 것이 중요하다.

언급된 리소스

GitHubNemotron-CrossThink Dataset

논문Maximize Your Data's Potential (Paper)

논문Front-Loading Reasoning (Paper)

논문RLP: Reinforcement as a Pretraining Objective (Paper)

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 05. 12.수집 2026. 05. 12.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.