핵심 요약
강화학습(RL) 기반의 LLM 학습에서 모델이 전혀 해결하지 못하는 너무 어려운 문제는 학습 신호를 생성하지 못해 성능 개선의 병목이 된다. 이 논문은 어려운 주관식 문제를 객관식이나 빈칸 채우기 형태로 재구성하여 모델이 단계적으로 학습할 수 있는 '인지적 비계(Scaffolding)'를 제공함으로써 기존 방식으로는 도달할 수 없었던 성능 한계를 돌파했다.
왜 중요한가
강화학습(RL) 기반의 LLM 학습에서 모델이 전혀 해결하지 못하는 너무 어려운 문제는 학습 신호를 생성하지 못해 성능 개선의 병목이 된다. 이 논문은 어려운 주관식 문제를 객관식이나 빈칸 채우기 형태로 재구성하여 모델이 단계적으로 학습할 수 있는 '인지적 비계(Scaffolding)'를 제공함으로써 기존 방식으로는 도달할 수 없었던 성능 한계를 돌파했다.
핵심 기여
과업 재구성(Task Reformulation) 메커니즘
복잡한 개방형 문제를 4지 선다, 10지 선다, 빈칸 채우기(Cloze) 등 인지 부하가 낮은 다양한 형식으로 변환하여 모델이 유의미한 보상 신호를 얻을 수 있도록 유도했다.
Cog-DRIFT 적응형 커리큘럼 프레임워크
모델의 현재 정확도에 따라 문제의 난이도(형식)를 동적으로 조절하는 인스턴스 단위의 커리큘럼 학습을 도입하여 학습 효율성을 극대화했다.
고난도 추론 벤치마크 성능 향상
기존 RL 학습으로 해결 불가능했던 난제들(pass@64=0)에 대해 Qwen 모델에서 +10.11%, Llama 모델에서 +8.64%의 절대적인 성능 향상을 기록했다.
핵심 아이디어 이해하기
강화학습의 핵심은 모델이 정답을 맞혔을 때 주어지는 보상(Reward)을 통해 가중치를 갱신하는 것이다. 하지만 모델의 현재 능력치를 완전히 벗어난 고난도 문제는 수만 번의 시도(Rollout)를 해도 정답을 맞히지 못해 보상 값이 0이 되며, 이는 Gradient Descent가 발생하지 않아 학습이 멈추는 '탐색의 장벽' 문제를 야기한다.
Cog-DRIFT는 교육 심리학의 '근접 발달 영역(Zone of Proximal Development)' 개념을 딥러닝에 이식했다. 주관식 문제를 객관식으로 바꾸면 모델이 탐색해야 할 출력 공간(Output Space)이 수억 개의 토큰 조합에서 단 몇 개의 선택지로 압축된다. 이는 모델이 정답에 도달할 확률을 비약적으로 높여 희소한 보상 신호를 조밀하게 만들어준다.
단순히 쉬운 문제만 푸는 것에 그치지 않고, 객관식에서 얻은 추론 능력을 다시 원래의 주관식 문제로 전이(Transfer)시킨다. 모델이 쉬운 형식에서 정답 경로를 발견하면, 그 과정에서 학습된 논리적 단계들이 복잡한 생성 작업에서도 가이드 역할을 수행하게 되어 최종적으로는 원래 못 풀던 난제까지 해결할 수 있게 된다.
방법론
전체 접근 방식은 어려운 개방형 문제(OEQ)를 인지적으로 단순화된 변환 함수 T를 통해 재구성하는 것이다. 변환된 형식은 4지 선다(MCQ4), 10지 선다(MCQ10), 빈칸 채우기(Cloze) 순으로 난이도가 구성되며, 모든 형식은 원래의 정답을 보존하도록 설계되었다.
핵심 메커니즘인 인스턴스 레벨 커리큘럼은 각 문제마다 난이도 레벨 d_i를 할당한다. 모델 M_theta가 현재 레벨에서 m개의 샘플을 생성하여 얻은 평균 정확도 a_hat_i를 계산한다. [m개 샘플 중 정답 수 / 전체 샘플 수 m] -> [0~1 사이의 정확도 값] -> [정확도가 임계값 tau=0.5 이상이면 d_i를 다음 단계로 격상]하는 방식으로 작동한다.
학습은 Group Relative Policy Optimization(GRPO)을 기반으로 수행된다. 각 입력 x_i에 대해 m개의 응답을 샘플링하고 그룹 내 상대적 보상을 계산한다. [개별 응답의 보상 r_i - 그룹 평균 보상] -> [장점(Advantage) 계산] -> [정책 네트워크 업데이트] 과정을 거쳐 모델이 더 높은 보상을 받는 응답을 생성하도록 최적화한다.
주요 결과
Qwen3-4B와 Llama3.2-3B 모델을 대상으로 6개의 추론 벤치마크에서 실험한 결과, Cog-DRIFT는 기존 GRPO 대비 평균적으로 각각 +4.72%, +3.23%의 성능 향상을 보였다. 특히 기존에 전혀 풀지 못했던 BigMath-Hard 데이터셋에서 Qwen은 0%에서 10.11%로, Llama는 0%에서 8.64%로 성능이 수직 상승했다.
AIME 2024/2025, GPQA 등 고난도 벤치마크에서 pass@k 성능을 분석한 결과, k값이 커질수록 Cog-DRIFT의 성능 우위가 더 뚜렷해졌다. 이는 모델이 단순히 운 좋게 정답을 맞히는 것이 아니라, 문제 해결을 위한 근본적인 추론 능력을 습득했음을 시사한다.
Ablation Study를 통해 단일 형식이 아닌 다채로운 형식(객관식+빈칸)을 혼합하여 학습하는 것이 원래의 주관식 문제로 능력을 전이하는 데 필수적임을 입증했다. 또한, 고정된 비율로 학습하는 것보다 모델의 성장에 맞춘 적응형 커리큘럼이 샘플 효율성을 크게 높이고 성능 정체(Plateau)를 방지함을 확인했다.
기술 상세
Cog-DRIFT는 RLVR(Reinforcement Learning from Verifiable Rewards) 환경에서 '탐색 실패' 문제를 해결하기 위해 고안되었다. 기존의 NuRL이나 POPE 같은 가이드 기반 탐색 방식이 외부 모델의 힌트에 의존하는 것과 달리, 본 연구는 문제 자체의 구조적 변형을 통해 모델 스스로 정답 경로를 발견하게 한다.
보상 함수는 r_i = r_correct + r_format 구조를 취한다. r_correct는 최종 정답 일치 여부에 따라 [0, 1]을 부여하고, r_format은 모델이 지정된 출력 형식(예: \boxed{})을 준수했는지에 따라 [0, 0.2]의 보너스 점수를 부여하여 학습의 안정성을 도모한다.
데이터 품질 관리를 위해 GPT-5.4를 활용한 'Silver Answer Filter'를 적용했다. 이는 pass@64=0인 문제들 중 실제로 오류가 있거나 풀 수 없는 문제를 제거하기 위함이며, 8,922개의 초기 데이터 중 엄격한 필터링을 거친 958개의 고품질 난제만을 학습에 사용하여 Llama 모델의 성능을 최적화했다.
한계점
본 방법론은 정답이 명확히 검증 가능한(Verifiable) 문제에 최적화되어 있어, 정답이 주관적이거나 모호한 일반 텍스트 생성 영역으로의 확장은 추가적인 연구가 필요하다. 또한, 문제 재구성을 위해 초기 프롬프트 설계 및 필터링 과정에서 고성능 모델(GPT-5.4 등)의 도움이 일부 필요할 수 있다.
실무 활용
수학, 코딩, 논리 추론 등 정답 확인이 가능한(Verifiable) 도메인에서 모델의 성능 한계를 돌파하고자 할 때 즉시 적용 가능한 프레임워크이다.
- 복잡한 수학 문제 해결을 위한 특화 모델 학습 시 데이터 증강 및 커리큘럼 설계
- 정답률이 낮은 고난도 코딩 테스트 데이터셋을 활용한 모델 파인튜닝
- 제한된 컴퓨팅 자원 내에서 강화학습의 샘플 효율성을 극대화해야 하는 경우
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.