언어 모델은 무엇을 언제 배우는가? 암시적 커리큘럼 가설

대형 언어 모델(LLM)의 학습 과정은 그동안 블랙박스에 가까웠으나, 이 논문은 모델이 무작위가 아닌 예측 가능한 순서로 능력을 습득한다는 '암시적 커리큘럼 가설'을 입증했다. 이를 통해 모델의 학습 상태를 실시간으로 모니터링하고, 특정 능력이 언제 발현될지 예측할 수 있는 새로운 진단 도구를 제공한다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

암시적 커리큘럼 가설 제안 및 검증

사전 학습 과정이 모델 아키텍처나 데이터 구성에 관계없이 일관되고 예측 가능한 순서로 능력을 습득한다는 가설을 세우고, 4개 모델군(410M~13B)을 대상으로 실험하여 높은 상관관계(ρ=0.81)를 확인했다.

능력 발현의 계층적 구조 확인

복합적인 작업(Composite tasks)은 항상 그 구성 요소가 되는 기초 작업(Elemental tasks)이 먼저 학습된 이후에 발현된다는 사실을 정량적으로 증명했다.

내부 표현 기반의 학습 궤적 예측

모델 내부의 함수 벡터(Function Vector) 유사도가 학습 궤적의 유사도와 직결됨을 발견하고, 이를 이용해 직접 평가하지 않은 작업의 학습 진행도를 R²=0.68~0.84 수준으로 예측하는 데 성공했다.

핵심 아이디어 이해하기

기존의 Scaling Laws는 연산량이 늘어남에 따라 전체적인 손실(Loss)이 줄어드는 현상은 잘 설명하지만, 모델이 구체적으로 어떤 시점에 어떤 기술을 배우는지는 알려주지 않는다. 마치 학생의 성적이 오르는 것은 알지만, 곱셈을 배우기 전에 덧셈을 완벽히 익혔는지 확인하기 어려운 것과 같다. 이 논문은 모델 내부에서 일어나는 학습이 사실은 매우 체계적인 '암시적 커리큘럼'을 따르고 있다고 본다.

연구진은 모델의 잔차 스트림(Residual Stream)에서 추출한 '함수 벡터'라는 개념을 활용했다. 이는 모델이 특정 작업을 수행할 때 활성화되는 고유한 계산 패턴을 벡터화한 것이다. 실험 결과, 이 벡터 공간에서 서로 가까운 위치에 있는 작업들은 학습 과정에서도 비슷한 시기에 발현되거나 유사한 성능 향상 곡선을 그리는 것으로 나타났다.

결과적으로 모델은 가장 단순한 복사(Copying)나 대소문자 변환부터 시작해 형태소 변화, 논리 연산, 수학적 추론 순으로 능력을 쌓아간다. 이러한 순서는 모델의 크기가 달라도 매우 일정하게 유지되므로, 우리는 모델의 내부 상태만 관찰해도 이 모델이 앞으로 어떤 복합적인 지능을 갖추게 될지 미리 내다볼 수 있게 된다.

관련 Figure

#2Chart
문자열 조작이나 형태소 분석은 학습 초기에 급격히 성능이 오르는 반면, 논리나 산술 작업은 훨씬 늦게 혹은 완만하게 성능이 향상됨을 보여준다. 작업의 난이도와 유형에 따라 학습되는 시점이 명확히 구분됨을 확인할 수 있다.
Pythia-410M 모델의 카테고리별 학습 궤적 그래프

방법론

연구진은 91개의 기초 및 복합 작업으로 구성된 'ElementalTask' 벤치마크를 설계했다. 기초 작업은 문자열 조작, 형태소 변환, 지식 추출 등을 포함하며, 복합 작업은 이러한 기초 작업들을 체계적으로 결합하여 생성했다. OLMo-2, OLMo-3, LLM360, Pythia 등 다양한 모델군의 체크포인트를 활용해 학습 토큰량에 따른 성능 변화를 추적했다.

능력의 발현 시점을 정의하기 위해 '절대 임계값(Absolute threshold)' 방식을 사용했다. 특정 작업의 정확도가 사전에 설정된 기준치 θ를 처음으로 초과하는 시점을 t로 정의한다. [작업 τ의 정확도 데이터 입력 → 기준치 θ와 비교 연산 → θ를 넘는 첫 번째 체크포인트 t 출력 → 해당 능력의 발현 시점으로 해석]

모델의 내부 표현을 분석하기 위해 함수 벡터(Function Vector)를 추출했다. ICL(In-Context Learning) 프롬프트를 모델에 입력하고, 마지막 토큰 위치에서의 어텐션 헤드 출력값이나 MLP 이후의 은닉 상태(Hidden state)를 추출하여 평균을 낸다. [ICL 프롬프트 입력 → 순전파 수행 → 마지막 토큰의 활성화 값 추출 → 정답을 맞춘 사례들의 평균 계산 → 해당 작업의 계산적 특징을 담은 벡터 생성]

관련 Figure

#3Chart
Pythia 모델과 비교했을 때 절대적인 성능 수치는 다르지만, 각 카테고리 내에서 작업들이 발현되는 상대적인 순서와 양상은 매우 유사하게 유지됨을 보여준다.
OLMo2-1B 모델의 카테고리별 학습 궤적 그래프

주요 결과

모든 모델 쌍(45개 조합)에서 능력 발현 순서의 Spearman 상관계수가 평균 0.81로 매우 높게 나타났다. 이는 데이터 분포나 모델 구조가 달라도 학습되는 기술의 우선순위가 보편적임을 시사한다. 특히 복합 작업 76개 중 54개가 부모 작업(기초 작업)이 학습된 이후에 발현되어 계층적 학습 구조를 입증했다.

함수 벡터를 이용한 학습 궤적 예측 실험에서는 뛰어난 성과를 거두었다. 직접 평가하지 않은(Held-out) 복합 작업의 성능 곡선을 주변 작업들의 벡터 유사도만으로 예측했을 때, R² 점수가 모델에 따라 0.68에서 0.84에 달했다. 이는 모델 내부의 기하학적 구조가 학습의 역동성을 이미 내포하고 있음을 의미한다.

관련 Figure

#1Chart
모델의 크기와 종류가 달라도 복사(Copying)가 가장 먼저 발현되고 수학(Math)이나 번역이 나중에 발현되는 일관된 색상 패턴을 보여준다. 이는 암시적 커리큘럼 가설의 핵심 증거인 모델 간 발현 순서의 안정성을 시각적으로 입증한다.
다양한 모델군에 걸친 주요 작업들의 발현 시점을 나타낸 히트맵

기술 상세

본 연구는 'Quantization Hypothesis'와 'Simplicity Bias' 이론을 대규모 언어 모델의 사전 학습 과정으로 확장했다. 모델이 이산적인 기술(Quanta)을 습득하며, 단순한 함수를 복잡한 함수보다 먼저 학습한다는 기존 통찰을 실제 LLM 학습 궤적에서 정량적으로 확인했다.

함수 벡터 추출에는 CIE(Causal Indirect Effect) 분석을 통한 Head-based extraction과 Residual stream의 Hidden-state extraction 두 가지 방식을 비교 사용했다. 대부분의 모델에서 전체 잔차 스트림을 사용하는 방식이 작업 간의 관계를 더 잘 표현하는 것으로 나타났다. 예측 모델로는 Kernel Ridge Regression을 채택하여 벡터 공간의 유사도를 기반으로 시계열 성능 데이터를 보간했다.

한계점

본 연구는 주로 13B 이하의 모델 크기와 1T 토큰 이하의 학습 구간에 집중되어 있어, 초거대 모델이나 학습 후반부에서 나타나는 고도의 추론 능력 발현까지 일반화하기에는 한계가 있을 수 있다. 또한 '첫 글자 추출' 작업 등 일부 작업에서 나타나는 순서 역전 현상에 대한 완벽한 이론적 설명은 아직 부족하다.

실무 활용

이 연구는 대규모 모델 학습 시 실시간 모니터링 및 성능 진단 도구로 즉시 활용될 수 있다.

Pretraining Monitoring: 학습 중인 모델이 계획된 커리큘럼대로 능력을 습득하고 있는지 실시간으로 확인
Capability Prediction: 특정 복합 능력이 발현되기 위해 필요한 기초 능력이 무엇인지 파악하고 발현 시점 예측
Data Mixture Optimization: 특정 능력을 조기에 발현시키기 위한 데이터 구성 전략 수립의 기초 자료로 활용

코드 공개 여부: 공개

코드 저장소 보기

키워드

LLM(대형 언어 모델)Pretraining(사전 학습)Scaling Laws(스케일링 법칙)Emergence(발현)Function Vector(함수 벡터)Curriculum Learning(커리큘럼 학습)

언어 모델은 무엇을 언제 배우는가? 암시적 커리큘럼 가설

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

암시적 커리큘럼 가설 제안 및 검증

능력 발현의 계층적 구조 확인

복합적인 작업(Composite tasks)은 항상 그 구성 요소가 되는 기초 작업(Elemental tasks)이 먼저 학습된 이후에 발현된다는 사실을 정량적으로 증명했다.

내부 표현 기반의 학습 궤적 예측

핵심 아이디어 이해하기

관련 Figure

방법론

관련 Figure

주요 결과

관련 Figure

기술 상세

한계점

실무 활용

이 연구는 대규모 모델 학습 시 실시간 모니터링 및 성능 진단 도구로 즉시 활용될 수 있다.

Pretraining Monitoring: 학습 중인 모델이 계획된 커리큘럼대로 능력을 습득하고 있는지 실시간으로 확인
Capability Prediction: 특정 복합 능력이 발현되기 위해 필요한 기초 능력이 무엇인지 파악하고 발현 시점 예측
Data Mixture Optimization: 특정 능력을 조기에 발현시키기 위한 데이터 구성 전략 수립의 기초 자료로 활용

코드 공개 여부: 공개

코드 저장소 보기

키워드

LLM(대형 언어 모델)Pretraining(사전 학습)Scaling Laws(스케일링 법칙)Emergence(발현)Function Vector(함수 벡터)Curriculum Learning(커리큘럼 학습)

언어 모델은 무엇을 언제 배우는가? 암시적 커리큘럼 가설

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

언어 모델은 무엇을 언제 배우는가? 암시적 커리큘럼 가설

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드