ThinkTwice: 대형 언어 모델의 추론과 자기 개선 능력을 동시에 최적화하는 기법

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존의 LLM 자기 개선 방식은 별도의 피드백 데이터나 강력한 스승 모델의 교정이 필요했지만, 이 논문은 정답 여부만으로 추론과 검토 능력을 동시에 학습시키는 효율적인 프레임워크를 제시했다. 특히 어려운 수학 문제에서 모델 스스로 오류를 수정하는 능력을 극대화하여 실제 문제 해결 성능을 대폭 향상시켰다.

왜 중요한가

핵심 기여

추론과 자기 개선의 공동 최적화 프레임워크

동일한 모델 파라미터를 사용하여 문제를 푸는 단계(Phase 1)와 자신의 답안을 검토하여 수정하는 단계(Phase 2)를 번갈아 학습시키는 ThinkTwice 프레임워크를 제안했다. 외부의 비평 데이터 없이 오직 최종 정답의 맞음/틀림 보상만으로 두 능력을 동시에 강화한다.

Rectify-then-Fortify 커리큘럼의 발견

학습 초기에는 틀린 답을 고치는 '교정(Rectify)'에 집중하고, 학습이 진행될수록 정답을 유지하며 논리를 다듬는 '강화(Fortify)'로 자연스럽게 전이되는 학습 역학을 분석했다. 이를 통해 모델이 단순히 답을 바꾸는 것이 아니라 논리적 무결성을 검증하는 법을 배운다.

수학 벤치마크에서의 압도적 성능 향상

Qwen3-4B 모델 기준, 고난도 수학 경시 대회 문제인 AIME에서 기존 GRPO 대비 추론 성능은 5%p, 자기 개선 후 성능은 11.5%p 향상된 결과를 보였다. 이는 추가적인 외부 데이터 없이 학습 구조의 개선만으로 달성한 성과이다.

핵심 아이디어 이해하기

기존의 강화학습(RLVR)은 모델이 한 번에 정답을 맞히는 것에만 집중한다. 하지만 인간은 어려운 문제를 풀 때 자신의 풀이를 다시 읽어보며 실수를 잡아낸다. Transformer 기반 모델 역시 초기 생성 과정에서 계산 실수나 논리적 비약을 저지를 수 있는데, 기존 방식은 이러한 '수정 기회'를 학습 과정에 포함하지 않았다.

ThinkTwice는 모델에게 '문제를 푸는 법'과 '자신의 풀이를 검토하는 법'을 동시에 가르친다. 먼저 모델이 문제를 풀게 하고(Phase 1), 그 결과가 맞든 틀리든 상관없이 자신의 풀이를 입력으로 주어 다시 한 번 생각하게 한다(Phase 2). 이때 두 단계 모두 '최종 정답이 맞았는가'라는 단순한 보상 신호를 사용하여 Gradient Descent를 수행한다.

이 과정에서 모델은 틀린 풀이를 입력받았을 때는 어디가 잘못되었는지 찾아내어 수정하는 법을 배우고, 이미 맞은 풀이를 받았을 때는 불필요한 군더더기를 제거하고 논리를 더 명확히 굳히는 법을 배운다. 결과적으로 모델은 단순한 정답 기계가 아니라, 자신의 사고 과정을 검증하고 최적화할 수 있는 능력을 갖추게 된다.

방법론

ThinkTwice는 GRPO(Group Relative Policy Optimization)를 기반으로 한 2단계 학습 구조를 가진다. 1단계(Reasoning Optimization)에서는 주어진 문제 x에 대해 G개의 응답을 생성하고 정답 여부에 따라 보상을 계산하여 정책 π를 업데이트한다. [문제 x → 모델 생성 → 정답 비교 보상 r → 정책 업데이트 π'] 순으로 연산이 이루어져 기초적인 추론 능력을 형성한다.

2단계(Refinement Optimization)에서는 1단계에서 생성된 풀이 중 하나를 무작위로 선택하여 모델에게 다시 입력한다. 이때 '이전 풀이를 검토하고 개선하라'는 일반적인 지침(Instruction)을 함께 제공한다. 모델은 [문제 x + 이전 풀이 y_base + 검토 지침 → 새로운 풀이 y_refine → 정답 비교 보상 r → 정책 업데이트 π''] 과정을 거치며 자기 개선 능력을 학습한다.

특이점은 2단계 학습 시 1단계에서 이미 한 번 업데이트된 정책(π')을 사용한다는 점이다. 이는 모델이 조금 더 똑똑해진 상태에서 자신의 과거 실수를 바라보게 함으로써 학습 효율을 높인다. 또한 별도의 '틀렸음' 신호를 주지 않고도 모델 스스로 정답 여부를 판단하고 수정 전략을 결정하도록 유도한다.

주요 결과

Qwen3-4B-Instruct 모델을 사용한 실험에서 ThinkTwice는 AIME 벤치마크 pass@4 기준 44.11%를 기록하여 표준 GRPO(39.06%)를 크게 앞질렀다. 특히 자기 개선 단계를 거친 후의 성능은 60.43%에 달해, GRPO의 개선 후 성능(48.91%)보다 11.5%p 이상 높은 효율을 보였다.

OLMo3-7B 모델에서도 유사한 경향이 확인되었다. 5개 수학 벤치마크 평균 성능에서 ThinkTwice는 추론 64.22%, 자기 개선 후 69.35%를 기록하며 DAPO, Dr.GRPO 등 최신 최적화 기법들을 모두 제치고 SOTA 성능을 달성했다.

학습 효율성 측면에서 ThinkTwice는 단계당 약 3%의 추가 연산 시간만 소요하면서도, GRPO보다 16% 더 적은 실제 시간(Wall-clock time) 내에 최적의 성능 지점에 도달했다. 이는 자기 개선 단계가 제공하는 풍부한 학습 신호가 모델의 수렴 속도를 가속화했음을 의미한다.

기술 상세

ThinkTwice의 핵심 차별점은 '공유된 정책(Shared Policy)'과 '단일 보상(Single Reward)' 체계이다. 기존의 자기 개선 연구들이 별도의 비평가 모델을 두거나 '이 답변은 틀렸습니다'와 같은 외부 힌트를 주었던 것과 달리, ThinkTwice는 모델이 스스로 문맥을 파악하여 교정(Rectify)할지 강화(Fortify)할지 결정하게 만든다.

수학적으로는 GRPO의 목적 함수를 두 단계에 걸쳐 적용한다. 1단계 업데이트 이후의 가중치를 초기값으로 하여 2단계 업데이트를 수행함으로써, 추론과 개선이라는 두 작업 사이의 시너지를 극대화한다. 이는 다중 턴 대화 형식으로 자연스럽게 구현되어 표준적인 RL 프레임워크 내에서 추가적인 아키텍처 변경 없이 동작한다.

학습 역학 분석 결과, 'fix-wrong' 비율(틀린 답을 맞게 고치는 비율)이 학습 중반부에 정점을 찍고, 'damage-correct' 비율(맞은 답을 틀리게 바꾸는 비율)은 학습 후반부에 0에 수렴하는 현상이 관찰되었다. 이는 모델이 자신의 풀이를 신뢰해야 할 때와 의심해야 할 때를 구분하는 고차원적인 메타 인지 능력을 획득하고 있음을 시사한다.

한계점

현재 연구는 수학 문제와 같이 정답이 명확히 검증 가능한(Verifiable) 도메인에 국한되어 있다. 창의적 글쓰기나 주관적 답변이 필요한 일반적인 대화 도메인에서는 보상 함수를 정의하기 어렵다는 한계가 있다. 또한 현재는 1회의 자기 개선 단계만 학습에 포함하고 있어, 다단계 반복 개선(Multi-step iterative refinement)의 효과는 향후 과제로 남아있다.

실무 활용

ThinkTwice는 정답 확인이 가능한 모든 도메인에서 모델의 추론 정확도를 높이는 데 즉시 적용 가능하다. 특히 고가의 스승 모델이나 수작업으로 작성된 피드백 데이터 없이도 자가 학습이 가능하다는 점이 실무적 강점이다.

수학 및 과학 문제 풀이 서비스의 답변 정확도 및 논리적 해설 품질 향상
코드 생성 모델이 작성한 코드의 버그를 스스로 찾아 수정하는 자가 디버깅 시스템 구축
복잡한 논리적 추론이 필요한 법률 또는 금융 문서 분석 에이전트의 신뢰성 강화

코드 공개 여부: 공개

코드 저장소 보기

키워드

GRPO(그룹 상대 정책 최적화)Self-Refinement(자기 개선)RLVR(검증 가능한 보상을 통한 강화학습)Mathematical Reasoning(수학적 추론)Curriculum Learning(커리큘럼 학습)