핵심 요약
새로운 모델을 만들 때마다 막대한 비용을 들여 사후 학습(Post-training)을 반복하는 비효율성을 해결할 수 있는 실마리를 제공합니다. 특정 능력이 모델 내부의 저차원 공간에 방향성으로 존재한다는 가설을 입증하여, 모델 크기가 달라도 핵심 지능을 복사하듯 옮길 수 있음을 보여주었습니다.
왜 중요한가
새로운 모델을 만들 때마다 막대한 비용을 들여 사후 학습(Post-training)을 반복하는 비효율성을 해결할 수 있는 실마리를 제공합니다. 특정 능력이 모델 내부의 저차원 공간에 방향성으로 존재한다는 가설을 입증하여, 모델 크기가 달라도 핵심 지능을 복사하듯 옮길 수 있음을 보여주었습니다.
핵심 기여
마스터 키 가설(Master Key Hypothesis) 제안
모델의 특정 능력은 저차원 잠재 하위 공간 내의 특정 방향에 대응하며, 서로 다른 모델 간에도 선형 정렬을 통해 이 방향을 전이할 수 있다는 가설을 수립하고 실험으로 증명했다.
학습이 필요 없는 전이 프레임워크 Unlock 개발
별도의 가중치 업데이트나 레이블링된 데이터 없이, 소스 모델의 활성화 차이를 추출하여 타겟 모델의 잠재 공간에 정렬 및 투영하는 것만으로 능력을 발현시키는 방법론을 구축했다.
모델 규모를 넘나드는 추론 능력 전이 입증
Qwen1.5-14B의 Chain-of-Thought 능력을 7B 모델로 전이하여 MATH 벤치마크에서 12.1%의 성능 향상을 기록했으며, 이는 사후 학습을 거친 모델의 성능에 근접하는 수치다.
수학적 추론 능력의 비원자적 전이 확인
프롬프트만으로는 유도되지 않는 복잡한 수학적 추론 능력도 Unlock을 통해 전이 가능함을 확인했으며, Qwen3-14B-Base 모델에 4B 모델의 수학 방향을 주입해 지시 튜닝된 모델의 성능을 추월했다.
핵심 아이디어 이해하기
기존의 대규모 언어 모델 학습은 사전 학습(Pre-training)으로 지식을 쌓고 사후 학습(Post-training)으로 특정 행동을 유도하는 2단계로 나뉜다. 하지만 모델의 크기나 종류가 바뀔 때마다 사후 학습을 처음부터 다시 해야 하는 비효율이 존재한다. 연구진은 사후 학습이 새로운 지식을 주입하는 것이 아니라, 이미 사전 학습 단계에서 잠재되어 있던 능력을 특정 출력 궤적으로 좁혀주는 '분포 선명화(Distribution Sharpening)' 과정이라는 점에 주목했다.
이 논문은 모델의 능력이 내부 표현 공간(Representation Space)에서 특정 '방향'으로 존재한다고 가정한다. 예를 들어 '단계별로 생각하기'라는 능력은 모델 내부 벡터들이 움직이는 특정 통로와 같다. Transformer 구조에서 각 토큰의 임베딩 벡터가 레이어를 거치며 변화할 때, 이 변화량의 차이를 분석하면 해당 능력을 유도하는 핵심 벡터인 'MasterKey'를 찾아낼 수 있다.
핵심은 서로 다른 두 모델(예: 7B와 14B)이 비록 차원 수는 다르더라도, 공통된 지식을 학습했다면 그 내부 구조가 유사한 기하학적 형태를 띤다는 '플라톤적 표현 가설'을 이용하는 것이다. 소스 모델에서 추출한 능력 방향을 타겟 모델의 공간으로 선형 변환(Linear Transformation)하여 정렬하면, 타겟 모델은 해당 능력을 학습한 적이 없더라도 내부의 잠재된 회로가 활성화되어 마치 학습된 모델처럼 행동하게 된다.
방법론
Unlock 프레임워크는 크게 세 단계로 구성된다. 첫째, 능력 추출 단계에서는 동일한 소스 모델에서 특정 능력이 있는 상태(Unlocked)와 없는 상태(Locked)의 활성화 값을 비교한다. 입력값으로 레이블이 없는 일반 쿼리 세트 D를 넣고 각 레이어 l에서의 은닉 상태 h의 차이인 v = h_unlocked - h_locked를 계산하여, 해당 능력을 유도하는 방향 벡터인 MasterKey를 추출한다.
둘째, 하위 공간 정렬 단계에서는 소스 모델과 타겟 모델의 표현 공간을 연결한다. 두 모델에 동일한 쿼리를 입력하여 얻은 은닉 상태 행렬 X_s와 X_t에 대해 특이값 분해(SVD)를 수행한다. [각 모델의 은닉 상태 행렬을 입력으로] → [SVD를 통해 상위 k개의 우특이 벡터를 추출하여 저차원 하위 공간을 정의하고] → [두 공간 사이의 Frobenius norm 오차를 최소화하는 선형 변환 행렬 W를 계산하여] → [모델 간 공간적 불일치를 해소하는 매핑 함수를 얻는다].
셋째, 추론 시 개입 단계에서는 추출된 MasterKey를 변환 행렬 W를 통해 타겟 모델의 공간으로 투영한다. [소스의 MasterKey 방향 벡터를 입력으로] → [학습된 선형 매핑을 거쳐 타겟 모델의 차원에 맞게 변환하고] → [타겟 모델의 추론 과정 중 각 레이어의 잔차 연결(Residual Stream)에 이 벡터를 더해줌으로써] → [모델의 출력 분포가 원하는 능력(예: CoT)을 발휘하는 방향으로 편향되도록 유도한다].
주요 결과
Chain-of-Thought(CoT) 전이 실험에서 Qwen1.5-14B의 방향을 7B 모델에 주입했을 때, GSM8K 정확도가 9.2%에서 56.0%로 급증했다. 이는 명시적인 CoT 프롬프트를 사용하지 않고도 달성한 수치이며, 7B 지시 튜닝 모델의 성능(58.1%)에 육박하는 결과다. 특히 소형 모델에서 대형 모델로의 전이(Small-to-Large)가 그 반대보다 더 효과적임이 확인되었는데, 이는 대형 모델이 소형 모델의 메커니즘을 기능적 초월 집합(Superset)으로 포함하고 있기 때문으로 분석된다.
수학적 추론 전이에서는 Qwen3-4B-Base의 수학 방향을 14B-Base 모델에 주입한 결과, AGIEval Math 정확도가 61.1%에서 71.3%로 상승했다. 이는 동일한 14B 모델을 직접 사후 학습시킨 모델의 성적인 67.8%를 상회하는 수치다. 이러한 성능 향상은 모델이 단순히 텍스트를 생성하는 것이 아니라, 출력 분포가 정답에 이르는 논리적 궤적으로 집중되면서 생성 길이가 길어지고 추론의 일관성이 높아졌기 때문에 발생했다.
추가 분석을 통해 이러한 전이의 성공 여부가 '능력의 원자성(Atomicity)'에 달려 있음을 밝혀냈다. 모델 내부에 이미 잠재적으로 존재하지만 발현되지 않고 있던 능력(Atomic)은 전이가 매우 잘 되는 반면, 사전 학습 단계에서 전혀 습득되지 않은 지식이나 능력은 전이가 불가능했다. 또한, 전이 과정에서 사용되는 선형 정렬이 매우 낮은 순위(Low-rank, k=4~12)만으로도 충분히 효과적임을 입증하여 능력의 본질이 단순한 구조에 있음을 시사했다.
기술 상세
본 연구는 선형 표현 가설(Linear Representation Hypothesis)과 플라톤적 표현 가설(Platonic Representation Hypothesis)을 결합하여 '마스터 키 가설'로 확장했다. 모델의 능력이 저차원 하위 공간의 방향 벡터로 부호화되어 있다는 점을 수학적으로 공식화하고, 이를 모델 간에 전이하기 위한 최소한의 조건으로 선형 하위 공간 정렬(Linear Subspace Alignment)을 제안했다.
구현 측면에서 Unlock은 아키텍처나 토크나이저가 다른 모델 간에도 적용 가능하도록 설계되었다. 레이어 매핑은 상대적 깊이(Relative Depth)를 기준으로 대응시키며, 전이된 벡터의 크기를 원래 은닉 상태의 노름(Norm)에 맞춰 재조정(Rescaling)함으로써 추론의 안정성을 확보했다. 특히 SVD를 통해 추출된 하위 공간의 유효 순위(Effective Rank)가 모델 전체 차원에 비해 극히 낮다는 점을 발견하여, 모델의 핵심 지능이 매우 압축된 형태로 존재함을 기술적으로 규명했다.
한계점
타겟 모델의 사전 학습 분포에 해당 능력이 전혀 존재하지 않는 경우(Non-atomic)에는 전이가 작동하지 않는다. 또한, 소스 모델과 타겟 모델 간의 표현 공간이 너무 이질적이거나 타겟 모델의 용량이 부족할 경우 전이 효율이 급격히 떨어진다. 현재는 주로 추론 및 수학 능력에 집중되어 있어, 더 넓은 범위의 지식이나 스타일 전이에 대한 검증이 추가로 필요하다.
실무 활용
고비용의 사후 학습(RLHF, SFT) 과정을 거치지 않고도 기존 모델의 우수한 능력을 신규 모델이나 소형 모델에 즉시 이식할 수 있는 실무적 방법론을 제시합니다.
- 대형 모델(14B+)의 고도화된 추론 능력을 모바일용 소형 모델(1B~3B)에 실시간으로 이식하여 온디바이스 AI 성능 강화
- 특정 도메인(수학, 코딩)에 특화된 모델의 내부 방향만 추출하여 범용 베이스 모델의 성능을 특정 작업에서 즉각 향상
- 새로운 모델 출시 시 사후 학습 데이터 구축 비용 없이 기존 모델의 정렬(Alignment) 상태를 빠르게 복제
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.