추론 LLM의 불필요한 성찰 감소를 위한 그래프 기반 Chain-of-Thought 프루닝

최신 추론 모델들은 더 긴 Chain-of-Thought를 생성하며 성능을 높였지만, 이 과정에서 이미 확인한 내용을 반복하거나 사소한 단계를 과도하게 검증하는 '오버씽킹' 문제가 발생한다. 이 논문은 선형적인 추론 과정을 그래프 구조로 변환해 불필요한 가지를 쳐냄으로써, 추론 비용은 획기적으로 낮추면서도 논리적 정확도는 유지하거나 오히려 향상시키는 방법을 제시한다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

그래프 기반 CoT 구조화 및 중복 식별

선형적인 텍스트 형태의 Chain-of-Thought를 유향 비순환 그래프(DAG)로 변환하여 추론 단계 간의 명시적 의존성을 복원한다. 이를 통해 논리적 기여도가 낮은 '무차별적 성찰'과 이미 검증된 결론을 다시 확인하는 '반복적 성찰'을 정밀하게 식별한다.

이중 프루닝 전략 설계

추론 그래프에서 하위 노드가 적은 성찰 가지를 제거하는 Branch-level Pruning과 추론 후반부에 나타나는 불필요한 재검증 노드를 제거하는 Depth-level Pruning을 도입하여 효율적인 추론 경로를 확보한다.

3단계 최적화 파이프라인 구축

프루닝된 간결한 데이터를 활용한 SFT, 간결한 궤적을 선호하도록 유도하는 DPO, 그리고 길이 페널티를 포함한 GRPO를 결합하여 모델이 스스로 효율적이고 정확한 추론을 수행하도록 학습시킨다.

핵심 아이디어 이해하기

기존의 LLM 추론은 문장을 순차적으로 생성하는 선형적인 구조에 갇혀 있어, 특정 추론 단계가 전체 결론에 얼마나 기여하는지 파악하기 어렵다. 특히 강화학습을 통해 추론 길이를 늘리면 보상을 얻기 위해 무의미한 성찰을 반복하는 '오버씽킹' 현상이 발생하는데, 이는 마치 수학 문제를 풀 때 쉬운 사칙연산을 수십 번 검토하느라 시간을 허비하는 것과 같다.

이 논문은 추론 과정을 노드(추론 단위)와 엣지(논리적 의존성)로 이루어진 그래프로 재구성하여 이 문제를 해결한다. 특정 성찰 노드에서 파생된 결과물이 이후의 정답 도출에 기여하지 않는다면, 해당 노드는 논리적 '막다른 길'로 간주되어 제거된다. 이는 뇌가 불필요한 신경 연결을 정리하는 시냅스 프루닝과 유사한 원리이다.

결과적으로 모델은 정답에 이르는 핵심 논리 경로(Main Path)에 집중하게 된다. 실험 결과 DeepSeek-R1-Distill-Qwen-7B 모델에서 평균 추론 토큰을 42.7% 줄이면서도 정확도는 오히려 소폭 상승하는 성과를 거두었다. 이는 무조건 길게 생각하는 것이 아니라 '필요한 만큼만 정확하게' 생각하는 것이 성능과 효율성 모두에 유리함을 입증한다.

방법론

전체 프로세스는 선형 CoT를 그래프로 변환하고, 정의된 기준에 따라 노드를 삭제한 뒤, 다시 텍스트로 복원하여 모델을 학습시키는 과정을 거친다. 먼저 외부 LLM을 사용하여 CoT를 Progress(추론 전진)와 Review(성찰/검토) 노드로 분류하고 각 노드 간의 논리적 연결 관계를 정의한 DAG를 생성한다.

그래프 기반 프루닝 기준은 두 가지 수식을 기반으로 한다. Branch-level Redundancy는 특정 노드 v의 자손 노드 개수 B(v)가 임계값 k보다 작을 때(B(v) < k) 해당 노드를 제거한다. [노드 v에서 시작된 논리 전개가 이후 단계로 이어지지 않음 → 연산 수행 → 해당 노드는 고립된 가지로 판단 → 삭제] 과정을 거친다. Depth-level Redundancy는 노드의 상대적 깊이 d(v)/d_max가 임계값 m을 초과할 때 제거한다. [현재 노드의 위치를 전체 경로 길이로 나눔 → 연산 수행 → 0.9 이상의 값이 나오면 후반부 중복 검토로 판단 → 삭제] 원리이다.

학습은 3단계로 진행된다. 1단계 SFT에서는 프루닝된 간결한 CoT 데이터를 학습하여 기초적인 효율성을 확보한다. 2단계 DPO에서는 동일 질문에 대해 생성된 여러 궤적 중 중복 점수 R(y)가 낮은 것을 선호하도록 정렬한다. 3단계 GRPO에서는 정답 여부에 따른 보상 V(x,y)와 길이 페널티 R_length를 결합한 최종 보상 R(x,y) = V(x,y) - λ * R_length를 사용하여 효율적인 추론 정책을 완성한다.

관련 Figure

#2Diagram
원본 CoT를 그래프로 변환하여 프루닝하는 과정부터, 선호도 학습(DPO) 및 길이 페널티 기반 강화학습(GRPO)이 어떻게 유기적으로 연결되는지 설명한다. 각 단계가 모델의 추론을 점진적으로 간결하게 만드는 과정을 도식화했다.
SFT, DPO, GRPO로 이어지는 3단계 학습 파이프라인의 전체 구조도.

주요 결과

DeepSeek-R1-Distill-Qwen-7B 모델을 기준으로 5개의 수학 벤치마크에서 평균 정확도가 59.72%에서 60.95%로 향상되었으며, 평균 추론 길이는 8134토큰에서 4660토큰으로 42.7% 감소했다. 특히 난이도가 높은 AIME25 벤치마크에서는 정확도가 29.00%에서 31.67%로 크게 상승하면서도 토큰 사용량은 절반 가까이 줄어드는 효율성을 보였다.

Ablation Study를 통해 SFT, DPO, GRPO 각 단계가 추가될 때마다 추론 길이는 계단식으로 짧아지면서도 정확도는 유지되거나 상승하는 경향을 확인했다. 특히 GRPO 단계에서 도입된 길이 페널티가 성능 하락 없이 토큰 수를 압축하는 데 결정적인 역할을 했음이 증명되었다.

모델 행동 분석 결과, 학습 후 모델은 'Wait', 'Hmm', 'Check'와 같은 성찰 지향적 토큰의 사용 빈도가 급격히 줄어든 반면, 'Therefore'와 같은 결론 도출형 연결어의 사용 빈도가 늘어났다. 이는 모델이 불필요한 고민을 줄이고 직접적인 의사결정 중심의 추론으로 변화했음을 시사한다.

관련 Figure

#1Chart
제안된 방법(Ours)이 다른 기법들(TokenSkip, O1-Pruner 등)에 비해 훨씬 적은 토큰을 사용하면서도 가장 높은 정확도를 달성하여 좌상단에 위치함을 보여준다. 이는 정확도 손실 없이 추론 비용을 획기적으로 줄였음을 시각적으로 증명한다.
다양한 추론 효율화 방법론들의 평균 추론 토큰 수 대비 정확도를 나타낸 산점도.

기술 상세

본 연구의 핵심 기술적 차별점은 CoT의 중복성을 단순히 토큰 수준의 엔트로피나 어텐션 가중치로 판단하지 않고, 논리적 의존 구조(Topological Structure)를 통해 식별한다는 점이다. 이를 위해 선형 텍스트를 JSON 형태의 그래프 구조로 변환하는 프롬프팅 기법을 정교화했으며, 인간 평가 결과 노드 타입 분류 정확도 90% 이상, 원자성(Atomicity) 유지율 85% 이상을 달성했다.

강화학습 단계에서 사용된 GRPO(Group Relative Policy Optimization)는 별도의 가치 모델(Value Model) 없이 그룹 내 상대적 보상을 활용하여 연산 효율을 높였다. 여기에 적용된 길이 페널티 R_length = δ(x, y)^γ는 최단 정답 궤적 대비 초과 길이에 대해 지수적으로 증가하는 페널티를 부여하여 모델이 극도의 간결함을 추구하도록 유도한다.

구현 측면에서는 LLaMA-Factory와 verl 프레임워크를 활용했으며, DeepSeek-R1-Distill-Qwen-1.5B 및 7B 모델을 대상으로 실험을 수행했다. 모든 실험은 NVIDIA A800 GPU 4장을 포함한 단일 노드에서 수행 가능할 정도로 데이터 효율성이 높으며, 프루닝된 3,335개의 샘플만으로도 강력한 성능 개선을 이끌어냈다.

한계점

그래프 구축을 위해 강력한 성능을 가진 교사 모델(Teacher Model)이 필요하므로 전처리 비용이 발생하며 확장성에 제약이 있을 수 있다. 또한 Progress/Review라는 이분법적 노드 레이블링이 매우 미세한 추론의 뉘앙스를 포착하기에는 다소 거칠 수 있다는 점이 한계로 지적된다. 현재 수학 도메인에 집중되어 있어 일반적인 오픈 도메인 작업으로의 일반화 여부는 추가 연구가 필요하다.

키워드

CoT(사고의 사슬)RL(강화학습)DAG(유향 비순환 그래프)Pruning(프루닝)Overthinking(오버씽킹)GRPO(그룹 상대 정책 최적화)

추론 LLM의 불필요한 성찰 감소를 위한 그래프 기반 Chain-of-Thought 프루닝

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

그래프 기반 CoT 구조화 및 중복 식별

이중 프루닝 전략 설계

3단계 최적화 파이프라인 구축

핵심 아이디어 이해하기

방법론

관련 Figure

주요 결과

관련 Figure

기술 상세

한계점

키워드

CoT(사고의 사슬)RL(강화학습)DAG(유향 비순환 그래프)Pruning(프루닝)Overthinking(오버씽킹)GRPO(그룹 상대 정책 최적화)

추론 LLM의 불필요한 성찰 감소를 위한 그래프 기반 Chain-of-Thought 프루닝

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

키워드

추론 LLM의 불필요한 성찰 감소를 위한 그래프 기반 Chain-of-Thought 프루닝

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드