Nemotron-Cascade 2: 계단식 강화학습과 다중 도메인 온폴리시 증류를 통한 LLM 사후 학습

거대 모델이 독점하던 수학 및 코딩 올림피아드 수준의 고난도 추론 능력을 20배 이상 작은 30B MoE 모델에서 구현했다. 순차적 강화학습과 지식 증류를 결합하여 모델의 지능 밀도를 극대화하는 새로운 사후 학습 방법론을 제시했다.

핵심 요약

왜 중요한가

핵심 기여

Nemotron-Cascade 2 모델 개발

30B 파라미터(3B 활성화) 규모의 MoE 구조로 IMO 2025 및 IOI 2025에서 금메달 수준의 성능을 달성한 고밀도 지능 모델이다.

확장된 Cascade RL 프레임워크

지시 이행(IF-RL)부터 수학, 코딩, 에이전트 소프트웨어 엔지니어링(SWE RL)까지 도메인별로 순차적인 강화학습을 수행하여 지능을 단계적으로 고도화했다.

다중 도메인 온폴리시 증류(MOPD) 도입

학습 과정 중 가장 우수한 중간 체크포인트를 교사 모델로 활용하여 토큰 단위의 세밀한 학습 신호를 제공함으로써 벤치마크 성능 저하를 방지하고 학습 효율을 높였다.

에이전트 강화학습 최적화

소프트웨어 엔지니어링 도구 사용 및 실행 피드백 기반의 RL을 통해 실질적인 문제 해결 능력을 강화하고 SWE-bench 등에서 우수한 성과를 거두었다.

핵심 아이디어 이해하기

기존의 강화학습(RL)은 여러 복잡한 도메인을 한꺼번에 학습할 때 도메인 간 간섭이 발생하거나 이전 지식을 잊어버리는 한계가 있다. 특히 수학이나 코딩처럼 고도의 추론이 필요한 분야는 학습 신호가 희소하여 모델이 최적의 경로를 찾기 어렵다.

Nemotron-Cascade 2는 이를 해결하기 위해 '계단식' 접근법을 사용한다. 먼저 기초적인 지시 이행 능력을 다진 후, 수학과 코딩 등 난이도가 높은 도메인을 순차적으로 학습시킨다. 이때 각 도메인에서 가장 뛰어난 성능을 보였던 과거의 자신(중간 체크포인트)을 교사로 삼아 현재의 학습을 지도하게 하는 MOPD 기법을 적용한다.

이 과정은 마치 학생이 기초 과목부터 심화 과목까지 순서대로 배우되, 각 과목의 전성기 시절 노트를 참고하며 공부하는 것과 같다. 결과적으로 30B라는 비교적 작은 크기임에도 불구하고 600B 이상의 거대 모델과 대등한 수준의 '지능 밀도'를 확보하게 된다.

방법론

전체 학습은 SFT 이후 IF-RL, Multi-domain RL, MOPD, RLHF, Long-context RL, Code RL, SWE RL의 순차적 단계로 구성된다. 각 단계는 이전 단계의 성과를 보존하면서 특정 도메인의 성능을 극한으로 끌어올리도록 설계되었다.

핵심 알고리즘인 MOPD는 Reverse-KL 다이버전스를 활용한다. [교사 모델의 토큰 확률 분포와 현재 학습 중인 학생 모델의 확률 분포를 입력으로] → [두 로그 확률의 차이를 계산하여] → [토큰 단위의 distillation advantage를 산출하고] → [이 값이 양수일 때 학생 모델이 교사의 판단을 더 강하게 모방하도록 가중치를 갱신한다].

강화학습 엔진으로는 GRPO를 사용한다. [동일 질문에 대해 생성된 여러 답변의 보상 점수들을 입력으로] → [그룹 내 평균과 표준편차를 이용해 각 답변의 상대적 우위를 계산하여] → [Advantage 값을 도출하고] → [이 숫자가 높은 답변의 생성 확률을 높이는 방향으로 gradient descent를 수행한다].

주요 결과

수학 분야에서 IMO 2025 문제 세트 35점을 기록하며 금메달 수준을 달성했다. AIME 2025에서는 92.4%의 정답률을 보였으며, 도구 통합 추론(TIR) 적용 시 98.6%까지 성능이 향상되었다.

코딩 분야에서는 IOI 2025에서 439.28점을 획득하여 금메달을 확보했고, ICPC World Finals 2025 문제 12개 중 10개를 해결하며 세계 4위 수준의 성적을 거두었다. LiveCodeBench v6에서도 87.2%의 높은 정확도를 기록했다.

일반 성능 지표인 ArenaHard v2에서는 83.5점을 기록하여 Qwen3.5-35B(65.4점) 등 경쟁 모델을 크게 앞질렀으며, 1M 길이의 긴 문맥 처리 능력에서도 NIAH 테스트 99.0%를 달성하며 안정적인 성능을 입증했다.

실무 활용

Nemotron-Cascade 2는 고난도 수학적 추론과 복잡한 코딩 작업이 필요한 에이전트 시스템에 최적화되어 있다. 특히 30B 규모의 효율적인 크기로 인해 실무 환경에서 고성능 추론 서비스를 구축하는 데 유리하다.

복잡한 알고리즘 설계 및 최적화를 지원하는 AI 코딩 어시스턴트
수학적 증명 및 논리적 검증이 필요한 교육용 AI 튜터
소프트웨어 저장소 단위의 버그 수정 및 리팩터링을 수행하는 자율 개발 에이전트
긴 문서의 맥락을 유지하며 복잡한 도구 사용이 필요한 엔터프라이즈 워크플로 자동화

기술 상세

Nemotron-Cascade 2는 30B 파라미터 중 3B만 활성화되는 MoE 아키텍처를 채택하여 지능 밀도를 높였다. 사후 학습의 핵심은 도메인 간 간섭(Inter-Domain Interference)을 최소화하는 순차적 RL 설계에 있다.

MOPD는 결과 기반의 희소한 보상(Sparse Reward) 대신 토큰 단위의 밀집된 신호(Dense Signal)를 제공하여 학습 수렴 속도를 비약적으로 향상시킨다. 실험 결과 MOPD는 52단계 만에 RLHF 160단계 이상의 성능에 도달하는 효율성을 보였다.

SWE RL 단계에서는 Agentless RL과 실행 기반 RL을 결합했다. [코드 수정 제안과 실행 결과 피드백을 입력으로] → [성공 여부에 따른 이진 보상을 부여하여] → [전체 에이전트 워크플로를 최적화하고] → [실제 소프트웨어 환경에서의 문제 해결 성공률을 극대화했다].

한계점

지식 집약적인 작업과 일부 에이전트 작업에서 Qwen3.5-35B-A3B에 비해 다소 낮은 성능을 보였으며, 이는 향후 더 강력한 지식 집약적 사전 학습과 에이전트 특화 RL이 필요함을 시사한다.

키워드

MoE(혼합 전문가 모델)Cascade RL(계단식 강화학습)On-Policy Distillation(온폴리시 증류)Mathematical Reasoning(수학적 추론)Competitive Coding(경진 코딩)Intelligence Density(지능 밀도)

Nemotron-Cascade 2: 계단식 강화학습과 다중 도메인 온폴리시 증류를 통한 LLM 사후 학습

핵심 요약

왜 중요한가

핵심 기여

Nemotron-Cascade 2 모델 개발

30B 파라미터(3B 활성화) 규모의 MoE 구조로 IMO 2025 및 IOI 2025에서 금메달 수준의 성능을 달성한 고밀도 지능 모델이다.

확장된 Cascade RL 프레임워크

다중 도메인 온폴리시 증류(MOPD) 도입

에이전트 강화학습 최적화

소프트웨어 엔지니어링 도구 사용 및 실행 피드백 기반의 RL을 통해 실질적인 문제 해결 능력을 강화하고 SWE-bench 등에서 우수한 성과를 거두었다.

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

복잡한 알고리즘 설계 및 최적화를 지원하는 AI 코딩 어시스턴트
수학적 증명 및 논리적 검증이 필요한 교육용 AI 튜터
소프트웨어 저장소 단위의 버그 수정 및 리팩터링을 수행하는 자율 개발 에이전트
긴 문서의 맥락을 유지하며 복잡한 도구 사용이 필요한 엔터프라이즈 워크플로 자동화

Nemotron-Cascade 2: 계단식 강화학습과 다중 도메인 온폴리시 증류를 통한 LLM 사후 학습

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

기술 상세

한계점

키워드

Nemotron-Cascade 2: 계단식 강화학습과 다중 도메인 온폴리시 증류를 통한 LLM 사후 학습

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

기술 상세

한계점

키워드

관련 피드

관련 토론

댓글

관련 피드

관련 토론

댓글