CHIMERA: 일반화된 LLM 추론을 위한 콤팩트한 합성 데이터

왜 중요한가

고품질 추론 데이터의 부족 문제를 해결하기 위해 9,000개의 정교한 합성 데이터를 구축했다. 이를 통해 크기가 작은 4B 모델도 수천억 개의 파라미터를 가진 거대 모델 수준의 복잡한 수학 및 과학 추론 능력을 갖출 수 있음을 증명했다.

핵심 기여

CHIMERA 데이터셋 구축

8개 과학 분야와 1,000개 이상의 세부 주제를 아우르는 9,225개의 고품질 합성 추론 데이터셋을 구축했다.

3단계 데이터 합성 파이프라인 설계

주제 확장, 문제 생성, 솔루션 합성으로 이어지는 체계적인 자동화 파이프라인을 통해 데이터의 다양성과 깊이를 확보했다.

교차 모델 검증 시스템 도입

GPT-5와 o4-mini를 활용해 생성된 문제의 타당성과 정답의 정확성을 인간 개입 없이 자동으로 검증하는 프로세스를 구현했다.

소형 모델의 추론 성능 극대화

CHIMERA로 학습된 4B 모델이 GPQA-Diamond 등 난도 높은 벤치마크에서 DeepSeek-R1(671B) 등 거대 모델에 필적하는 성능을 달성했다.

핵심 아이디어 이해하기

기존 LLM의 추론 능력 향상은 주로 대규모 데이터 학습에 의존하지만, 고품질의 Chain-of-Thought(CoT) 데이터는 구하기 어렵고 인간이 작성하기엔 비용이 너무 크다. 특히 수학 외의 다양한 과학 분야를 포괄하는 데이터가 부족하여 모델의 범용 추론 능력이 제한되는 한계가 존재했다.

CHIMERA는 '양보다 질'에 집중하여 이 문제를 해결한다. 단순히 데이터를 많이 만드는 대신, GPT-5와 같은 최첨단 모델을 사용해 매우 복잡하고 긴 추론 과정을 포함한 문제를 생성한다. 이때 계층적 분류 체계를 도입해 지식의 빈틈이 없도록 설계하고, 두 개의 서로 다른 모델이 서로의 결과물을 검증하게 하여 데이터의 신뢰도를 극대화했다.

결과적으로 9,000개라는 매우 적은 양의 데이터만으로도 모델은 복잡한 논리 전개 방식을 학습하게 된다. 이는 수백만 개의 일반 데이터를 학습하는 것보다 추론의 '핵심 원리'를 깨우치는 데 훨씬 효과적이며, 소형 모델도 거대 모델처럼 사고할 수 있는 효율적인 학습 경로를 제시한다.

방법론

데이터 합성 파이프라인은 주제 확장(Subject Expansion), 문제 생성(Problem Generation), 솔루션 합성(Solution Synthesis)의 3단계로 구성된다. 주제 확장 단계에서는 수학, 물리학 등 8개 주요 분야를 GPT-5를 통해 1,179개의 세부 주제로 세분화하여 계층 구조를 형성한다.

문제 생성 단계에서는 각 세부 주제에 대해 박사급 전문가 수준의 독립적이고 검증 가능한 문제를 생성한다. 생성 직후 GPT-5와 o4-mini라는 두 독립적인 모델이 문제의 타당성과 정답의 정확성을 교차 검증하며, 두 모델이 모두 동의한 문제만 데이터셋에 포함시킨다. [입력: 주제 및 난이도 설정 → 연산: 두 모델의 독립적 검증 및 합의 도출 → 출력: 검증된 문제-정답 쌍 → 의미: 데이터의 신뢰성 확보]

마지막 솔루션 합성 단계에서는 Qwen3-235B-Thinking 모델을 사용하여 매우 상세한 CoT 추론 경로를 생성한다. 생성된 추론 경로가 최종 정답에 도달하는지 다시 확인하여 레이블링하며, 이를 통해 모델이 복잡한 다단계 추론 과정을 모방 학습(SFT)하고 강화 학습(RL)할 수 있는 고품질 데이터를 완성한다.

주요 결과

CHIMERA로 학습된 Qwen3-4B 모델은 주요 추론 벤치마크에서 비약적인 성능 향상을 보였다. GPQA-Diamond에서 70.1%, AIME24에서 86.9%를 기록하며 베이스 모델 대비 각각 4.3%, 5.3% 개선된 결과를 나타냈다. 특히 4B 파라미터 모델임에도 불구하고 DeepSeek-R1(671B)이나 Qwen3-235B와 같은 거대 모델의 성능에 근접하거나 일부 항목에서는 이를 능가했다.

데이터 오염 분석 결과, 테스트 셋과의 n-gram 중복도가 거의 0에 수렴하여 단순 암기가 아닌 실제 추론 능력의 향상임이 확인됐다. 또한 추론 시간 스케일링(Inference-time scaling) 테스트에서도 샘플 수가 늘어날수록 성능이 일관되게 향상되는 견고함을 보였다.

기존 합성 데이터셋인 OpenScience와 비교했을 때, CHIMERA로 학습한 모델이 훨씬 우수한 성능을 보였다. 이는 OpenScience가 객관식 형식에 의존하여 모델이 소거법과 같은 지름길을 학습하게 만드는 반면, CHIMERA는 자유 형식의 상세한 추론 과정을 학습시키기 때문으로 분석됐다.

실무 활용

적은 비용으로 고성능 추론 모델을 구축하고자 하는 기업이나 연구자에게 최적의 데이터 효율성 가이드를 제공한다. 특히 특정 전문 도메인의 추론 데이터가 부족한 상황에서 합성 데이터 파이프라인을 적용해 모델 성능을 극대화할 수 있다.

전문 과학 분야(물리, 화학 등) 특화 추론 모델 개발
소형 모델(On-device AI)의 논리적 사고 및 문제 해결 능력 강화
고난도 시험 문제 생성 및 자동 채점 시스템의 학습 데이터로 활용
데이터가 부족한 특수 도메인의 고품질 합성 데이터 생성 파이프라인 구축

기술 상세

CHIMERA는 데이터 효율성을 극대화하기 위해 '계층적 분류 체계(Hierarchical Taxonomy)'를 활용한다. 8개 대분류에서 시작해 1,179개 소분류로 확장되는 구조는 지식의 편향을 방지하고 모델이 다양한 논리 구조를 경험하게 한다.

학습 과정에서는 지도 학습(SFT)과 강화 학습(RL)을 결합한다. SFT에서는 검증된 CoT 경로를 학습하며, RL 단계에서는 CISPO 알고리즘을 적용해 모델이 스스로 생성한 결과물 중 정답에 도달한 경로에 보상을 주는 방식으로 최적화한다. 보상 모델로는 o4-mini를 활용하여 생성된 결과의 정확도를 평가한다.

기존 합성 데이터셋인 OpenR1-Math나 DeepMath-103K와 비교했을 때, CHIMERA는 문제의 길이(Prompt Length)가 약 3~6배 더 길고 솔루션의 상세함(Solution Length)은 수십 배 더 높다. 이러한 '롱 호라이즌(Long-horizon)' 특징이 복잡한 문제 해결 능력의 핵심 차별점이다.

데이터의 난이도 분석 결과, 기존 데이터셋들은 최신 모델들에게 이미 포화 상태(Near-saturation)에 도달하여 학습 신호가 약한 반면, CHIMERA는 베이스 모델의 정확도가 37.5%에 불과할 정도로 높은 난이도를 유지하여 강력한 학습 신호를 제공한다.

한계점

텍스트 기반의 문제만 다루고 있어 멀티모달(이미지 포함) 추론 능력은 평가되지 않았으며, Humanity's Last Exam(HLE) 벤치마크의 경우 텍스트 전용 문제로 한정하여 실험을 진행했다. 또한 합성 데이터 생성에 사용된 교사 모델(GPT-5 등)의 성능에 데이터 품질이 종속될 수 있는 잠재적 한계가 있다.

키워드

CoT(생각의 사슬)Synthetic Data(합성 데이터)LLM Reasoning(LLM 추론)SFT(지도 미세 조정)RL(강화 학습)Data Efficiency(데이터 효율성)