TL;DR
NL 추론 중심의 문제 해결에서 발생하는 산술 오류와 NL-코드의 역할 중복 문제를 해결하기 위해, 코드가 추론의 주체가 되는 THINC 프레임워크를 제안한다. THINC-4B는 다섯 가지 대회급 수학 벤치마크에서 TIR 기법을 모두 앞지르고, NL 추론 대신 interpreter 출력을 기반으로 최종 해답의 99.2%를 확보한다. 또한 초기 코드 실행 실패에도 비교적 견고하게 작동하며, 선행 연구의 한계를 코드-기반 추론으로 극복한다.
왜 중요한가
NL 추론 중심의 문제 해결에서 발생하는 산술 오류와 NL-코드의 역할 중복 문제를 해결하기 위해, 코드가 추론의 주체가 되는 THINC 프레임워크를 제안한다. THINC-4B는 다섯 가지 대회급 수학 벤치마크에서 TIR 기법을 모두 앞지르고, NL 추론 대신 interpreter 출력을 기반으로 최종 해답의 99.2%를 확보한다. 또한 초기 코드 실행 실패에도 비교적 견고하게 작동하며, 선행 연구의 한계를 코드-기반 추론으로 극복한다.
핵심 기여
THINC 프레임워크 제안
코드를 추론의 기본 수단으로 사용하고, 짧은 NL planning 이후 모든 추론을 코드 블록에서 수행하는 THINC 구조를 제시한다. 코드가 해석기에 의해 실행되며 중간 값은 모두 검증 가능하다.
THINC-SFT 데이터셋
12.2k 개의 THINC 트래젝토리를 distillation으로 구성해 SFT 데이터로 사용하고, THINC-1.7B-SFT 및 THINC-4B-SFT 모델을 선행 학습한다.
RL with verifiable rewards
GRPO 기반의 강화학습을 도입하고, 3단계 커리큘럼으로 context budget과 도구 사용을 점진적으로 확장하며, 보상은 정답이 미리 정의된 a⋆와의 일치를 통해 정량적으로 검증된다.
Code-centric reasoning으로의 성능 향상
THINC-4B는 5개 벤치마크에서 평균 78.1%의 정확도를 달성하고, NL-only 및 다른 TIR baselines를 상회한다. 99.2%의 최종 답변이 interpreter 출력에 근거하며, 초기 코드 실행 실패에도 비교적 강건하다.
핵심 아이디어 이해하기
단락 1: 기존의 NL 기반 추론에서 코드가 도구로 사용되며, NL이 제시한 알고리즘이 코드에 의해 재현되는 구조가 흔하다. 이로 인해 NL의 산술 오류가 코드 블록으로 전이될 수 있고, NL과 코드의 역할이 서로 중복되는 문제점이 있다. 단락 2: THINC는 t1에서 해결 전략만 NL로 제시하고 나머지 추론은 코드 블록에서 수행하도록 구조를 바꾼다. 각 코드는 이전 실행 출력(o1, …, oi−1)에 의존하여 연산을 수행하고, 최종 해답은 interpreter의 출력에서 도출된다. 단락 3: 이 구조는 NL을 고수준의 계획에 한정하고, 코드는 모든 수학적 변형·계산을 수행하게 하여 검증 가능성과 재현성을 확보한다. 단락 4: THINC의 학습 흐름은 (i) THINC-SFT를 통한 코드-중심 데이터 구성, (ii) SFT로 코드 중심 행동의 상향 조정, (iii) GRPO 기반의 RL로 실제 문제 해결 성능을 강화하는 세 단계로 진행된다.
관련 Figure

THINC의 핵심 아이디어를 시각적으로 보여주며 code-centric reasoning을 강조하는 그림으로, THINC의 목적과 설계 원리를 보강한다.
THINC와 3가지 구조적 한계(A)·NL 기반 산출·도구 연동의 차이를 도식화한 도표
방법론
단락 1: THINC의 전체 아키텍처는 τThinC 형식으로 정의된다. 이는 (q, t1, c1, o1, c2, o2, ..., cN, oN, a)로 구성되며, t1은 문제해결 전략을 나타내는 NL 계획이다. i ≥ 2의 단계에서 코드는 각각의 실행 출력을 바탕으로 추론을 수행한다. 중간 값은 모두 interpreter의 실행으로 얻어진다.
관련 Figure

NL 계획과 코드 실행의 분리, 코드가 주된 해결자 role을 수행하는 차이를 시각적으로 제시한다.
Turn 단위로 Interleaved TIR과 THINC를 비교하는 예시

코드 블록이 의사결정의 주된 주체가 됨을 시각적으로 확인 가능하며, NL은 전략 수립에만 남는다.
THINC의 코드-주도 추론 흐름의 Turn 예시

THINC-SFT 데이터 수집, SFT, RL의 단계적 학습 과정을 시각화한다.
THINC 학습 파이프라인의 요약 도표
주요 결과
단락 1: THINC-4B는 평균 78.1%로 최상위 성능을 달성하며, 5개 벤치마크 중 4개에서 최상 또는 2위로 나타난다. THINC-1.7B는 평균 42.8%로, NL-only 및 다른 도구 기반 추론 모델 대비 우수하다. THINC은 ASTER-4B 등 interleaved-TIR 대비 평균 4.1점의 우위를 보이며, 코드-블록의 수가 적지 않게 증가한 수치를 나타낸다. 단락 2: THINC-4B의 코드-근거 여부는 99.2%로 확인되며, 15의 consecutive code 실패에서도 Recovery Rate가 64–69%를 유지한다. 단락 3: RL 트레이닝은 Stage 13의 커리큘럼으로 구성되어, AIME 2024에서의 평균 정확도는 SFT 체크포인트 63.5%에서 RL 종료 시 88.3%까지 상승했다. 단락 4: 코드-근거 최종 답변 비율이 높아, NL 추론 의존도가 낮고 interpreter 출력에 기반한 결합 방식이 강건성을 높인다.
관련 Figure

THINC-4B가 NL-Only 및 다른 TIR 모델 대비 평균 성능에서 우위를 차지하는 근거를 제시한다.
AIME 벤치마크에서의 성능 비교 표

Stage 1→Stage 3에서의 정확도 상승과 응답 길이 변화를 보여주며 RL의 효과를 시각화한다.
RL 학습 단계별 트레이닝 다이어그램 및 추적 그래프

THINC의 코드 의존도가 높고 코드-grounded answer 비율이 높은 것을 시사한다.
THINC-4B의 코드 라인 수 및 코드-근거 비율 비교
기술 상세
단락 1: 코드-주도 THINC 아키텍처의 구성 요소 및 학습 접근법의 차이점. 단락 2: THINC-SFT 데이터 수집 및 distillation 절차. 단락 3: SFT 손실 LSFT 정의 및 mk = 1 처리. 단락 4: RL 학습의 GRPO 알고리즘, Clip-Higher, ϵlow/ϵhigh 설정, Stage별 커리큘럼 및 컨텍스트 예산. 단락 5: 벤치마크 환경 및 평가 프로토콜, 32K 토큰 추론 예산과 16 traj per 문제의 설정.
실무 활용
THINC의 코드-주도 추론 형식은 수학적 문제 해결에서 NL의 산술 오류를 줄이고, 인터프리터 출력에 의해 모든 중간 결과를 검증 가능하게 한다. 또한 RL로 벤치마크 성능을 향상시키며, 7k~11k 토큰 수준의 응답 길이를 유지하는 특성을 보인다.
- 경쟁 수학 대회 문제 풀이 자동화
- Symbolic 수학 및 방정식 계산의 코드 기반 추론 시스템 개발
- 수학 문제 해결 파이프라인에서 코드-검증 단계 도입
- LLM의 수학적 추론 로깅 및 디버깅 도구 개발
코드 공개 여부: 미확인
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.