핵심 요약
기존에는 여러 데이터를 섞어 학습할 때 그 비율을 미리 정해야 했으며, 잘못된 선택은 수주간의 연산 비용 낭비로 이어졌다. OPTIMER는 각 데이터를 독립적으로 학습한 뒤 나중에 수학적으로 최적의 비율을 찾아 병합함으로써, 재학습 없이도 특정 목적에 맞는 고성능 모델을 즉시 생성할 수 있게 한다.
왜 중요한가
기존에는 여러 데이터를 섞어 학습할 때 그 비율을 미리 정해야 했으며, 잘못된 선택은 수주간의 연산 비용 낭비로 이어졌다. OPTIMER는 각 데이터를 독립적으로 학습한 뒤 나중에 수학적으로 최적의 비율을 찾아 병합함으로써, 재학습 없이도 특정 목적에 맞는 고성능 모델을 즉시 생성할 수 있게 한다.
핵심 기여
분포 벡터(Distribution Vector) 기반 사후 병합 프레임워크
데이터 믹싱 비율 결정을 모델 학습 단계에서 분리하여, 학습 완료 후 추출된 파라미터 변화량 벡터를 최적의 가중치로 합성하는 구조를 확립했다.
베이지안 최적화(TPE)를 통한 효율적 가중치 탐색
수천 개의 파라미터를 직접 튜닝하는 대신 소수의 도메인별 가중치를 TPE 알고리즘으로 최적화하여, 기존 방식 대비 탐색 시간을 15~35배 단축했다.
지시문 튜닝(IT) 성능 보존 메커니즘
도메인 지식 주입 과정에서 손실되기 쉬운 모델의 대화 및 지시 이행 능력을 IT 벡터 병합을 통해 효과적으로 복구하고 유지했다.
목적 기반 모델 재구성의 유연성
한 번의 학습으로 생성된 벡터 풀을 재사용하여 추가 학습 없이도 일본어 특화, 수학 특화 등 다양한 목적의 모델을 필요에 따라 즉시 생성할 수 있음을 입증했다.
핵심 아이디어 이해하기
기존의 지속적 사전 학습은 여러 도메인의 데이터를 하나의 배치에 섞어서 학습하는데, 이때 각 데이터의 비중은 학습 시작 전에 고정해야 하는 하이퍼파라미터다. 최적의 비율을 찾으려면 매번 전체 학습을 다시 시도해야 하므로 막대한 자원이 소모된다. OPTIMER는 이를 해결하기 위해 각 데이터셋을 독립적으로 학습시킨 후 기본 모델과의 파라미터 차이인 분포 벡터를 추출한다. 연구진은 서로 다른 데이터셋에서 유도된 벡터들이 서로 직교에 가깝다는 점에 착안하여 이들을 선형 결합해도 간섭이 적다는 것을 발견했다. 결과적으로 학습이 끝난 후 베이지안 최적화를 통해 각 벡터의 가중치를 미세 조정함으로써, 최적의 비율로 데이터를 섞어 학습한 것 이상의 성능을 내는 모델을 단 몇 분 만에 병합해낼 수 있다.
방법론
분포 벡터 추출 단계에서는 각 데이터셋으로 학습된 모델 가중치에서 베이스 모델 가중치를 뺀다. [학습된 파라미터와 원본 파라미터 값을 입력으로] -> [두 값의 차이를 구하는 뺄셈 연산을 수행해] -> [파라미터 변화량인 분포 벡터를 얻고] -> [이 값은 해당 데이터셋이 모델에 미친 고유한 영향력을 의미한다.] 다중 벡터 합성 단계에서는 식을 사용한다. [기본 모델에 각 벡터와 가중치의 곱을 더함 -> 모든 벡터의 영향력이 선형적으로 합산됨 -> 특정 도메인 지식과 대화 능력이 공존하는 단일 파라미터 세트 도출] 과정을 거친다. 마지막으로 TPE 알고리즘을 통해 검증셋 점수를 최대화하는 가중치 조합을 탐색하며, 각 시도마다 모델을 새로 학습하는 대신 병합과 평가만 반복하여 속도를 높였다.
주요 결과
Gemma 3 27B 기반 실험에서 OPTIMER는 데이터 믹싱 베이스라인 대비 평균 2.1~6.7점 높은 성능을 기록했다. 특히 일본어, 수학, 코드 데이터 조합에서 모든 벤치마크를 통틀어 가장 높은 평균 점수를 달성했다. 탐색 효율성 측면에서 100회의 최적화 시도를 포함한 OPTIMER의 탐색 시간은 약 8.6시간으로, 단 한 번의 데이터 믹싱 학습 시간인 128.9시간보다 15배 이상 빨랐다. 데이터셋 수가 늘어날수록 이 격차는 최대 35배까지 벌어졌다. 분포 벡터 분석 결과 CPT 벡터와 IT 벡터 간의 코사인 유사도는 약 0.03으로 매우 낮아 독립적인 하위 공간에서 작동함이 확인됐다.
기술 상세
OPTIMER는 CPT 과정의 데이터 비율 결정 문제를 사후 분포 벡터 병합 문제로 재정의한다. 각 데이터셋에 대한 파라미터 변화량을 독립적인 벡터로 취급하여 선형 결합하는 것이 핵심이다. 병합 함수로는 DARE-Linear를 사용하여 임베딩과 출력 레이어를 제외한 가중치를 병합함으로써 베이스 모델의 토큰 표현력을 유지한다. 최적화 과정에서 TPE는 목적 함수의 그래디언트를 알 수 없는 블랙박스 상황에서도 효율적으로 작동하며, 가중치 탐색 범위를 [-1, 1]로 확장할 경우 특정 데이터의 부정적 간섭을 제거하는 음수 가중치 할당이 가능해져 성능이 추가로 향상된다. 실험 분석에 따르면 CPT 학습 궤적은 파라미터 공간에서 대략적으로 선형적인 특성을 띠며, 이는 병합 가중치 조절이 실질적으로 해당 데이터의 학습 시간을 조절하는 것과 유사한 효과를 가짐을 시사한다.
한계점
1B 토큰 수준의 CPT에서는 효과적이나 더 대규모의 학습에서는 모델이 베이스라인에서 너무 멀어져 병합 효율이 떨어질 수 있다. 또한 현재는 Gemma 아키텍처 위주로 검증되어 다른 구조에 대한 추가 연구가 필요하다.
실무 활용
대규모 언어 모델을 여러 언어나 전문 도메인에 적응시켜야 하는 환경에서 학습 비용을 획기적으로 줄이면서 최적의 성능을 낼 수 있는 실무적인 방법론이다.
- 다국어 지원 LLM 개발 시 언어별 데이터 비중 최적화
- 특정 도메인(의료, 법률 등) 지식 주입 시 성능 저하 방지
- 하드웨어 자원이 제한된 환경에서의 효율적인 모델 앙상블 및 특화 모델 생성
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.