Crosslingual On-Policy Self-Distillation for Multilingual Reasoning

다국어 대형언어모델의 수학 추론은 일반적으로 고자원 언어에서만 우수하다. COPSD는 같은 모델을 학생과 교사로 사용하되, 교사에게 영어 등 고자원 언어의 privileged 정보를 제공해 저자원 언어에서의 추론 성능을Dense하게 향상시킨다. 이로써 저자원 언어에서도 더 나은 문제해결 흐름을 얻도록 한다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

왜 중요한가

핵심 기여

COPSD 프레임워크 제안

Crosslingual On-Policy Self-Distillation(COPSD)을 제안한다. 학습 중에 학생은 저자원 문제 x(L)만 관찰하고, 교사는 x(L), x(H), y∗를 이용해 정책 분포를 평가한다. 같은 모델을 두 정책으로 사용하되, 토큰 단위의 분포 차이를 최소화하는 손실로Dense 피드백을 제공한다.

Dense token-level distillation

학생의 온-폴리시 롤아웃에서 교사-학생 간 per-token Divergence를 최소화한다(DCOPSD). 이는 시퀀스 최적화에서의 sparse 보상 문제를 완화하고 중간 추론 단계마다 피드백을 제공한다.

다국어 저자원 언어에서의 일관된 개선

17개의 아프리카 저자원 언어 AfriMGSM에서 다양한 모델 크기(Qwen3-1.7B, 4B, 8B) 간 COPSD가 기본 모델 및 GRPO 대비 일관되게 성능을 향상시킨다.

훈련 다이나믹스와 테스트-타임 스케일링 분석

COPSD는 초기 학습에서 빠르게 수렴하며, 테스트 시 더 긴 생성 버전에서 성능 향상을 크게 얻는 경향을 보인다. 형식 일치도와 평가 지표 간의 상관관계가 양의 상관을 보인다.

PolyMath 일반화

4개 이상 난이도의 PolyMath 벤치마크에서도 낮은-자원 언어에서 큰 이득을 보이며, 고자원 언어에서는 이득이 상대적으로 작아 COPSD의 교차언어 추론 전이가 저자원 언어에 특화된 효과임을 시사한다.

코드 및 데이터 공개

공개된 GitHub 저장소를 통해 COPSD의 구현과 데이터셋 접근성을 제공한다.

핵심 아이디어 이해하기

출발점: 대형 언어모델은 수학적 추론에서 뛰어나도 다국어 환경에서의 표현에는 한계가 있다. 특히 저자원 언어에서의 추론 traces가 충분히 표현되지 않는 문제가 있다. 중간 추론 트레이스의 품질은 최종 정답 여부보다 더 중요하며, dense한 피드백이 필요하다. 해결 원리: COPSD는 한 모델을 두 역할으로 사용한다. 학생은 x(L)로 제한된 문제를 해결하고, 교사는 x(L), x(H), y∗의 privileged 정보를 사용해 다음 토큰 분포를 평가한다. 두 정책 간의 per-token 분포 차이를 최소화하는 학습(signal)을 통해 영어에서 학습한 추론 전략이 저자원 언어로 전이되도록 한다. 달라지는 점: target language에 맞춘 프롬프트-제어와 온-정책 자기증류의 결합으로, target 언어의 표현 제약 속에서도 영어 기반의 추론 패턴을 활용하게 된다. 이는 저자원 언어에서의 추론 정확도와 형식 준수(formatted answer) 모두를 향상시키고, 더 큰 추론 버전에서도 효과를 유지한다.

방법론

전체 접근 방식: D = {(x(L), x(H), y∗)} 형태의 다국어 수학 추론 데이터에서 COPSD를 적용한다. 학생(pS) 정책은 x(L)만 관찰하고, 교사(pT) 정책은 x(L), x(H), y∗를 조건으로 한다. 두 정책은 같은 LLM에서 파라미터 θ를 공유하지만, 교사 분포는 privileged 정보를 이용해 더 강한 추론 분포를 유도한다. 학습 목표: DCOPSD(ˆy(L)|x(L)) = 1/|y(L)| ∑n D(pTn ∥ pSn) 형태의 토큰-수준 분포 차이를 최소화한다. COPSD의 전체 손실은 E( x(L),x(H),y∗ ) [ E( ŷ(L) ∼ pS(·|x(L)) [ DCOPSD(ŷ(L)|x(L)) ] ) ]. 훈련 구현: 프롬프트-컨트롤로 Swahili를 예로 들어 학생/교사 프롬프트를 구성하고, English 번역과 reference solution을 교사에 제공한다. 수식은 KL-발산을 사용하며, 교사는 고정된 분포(target)로 동작한다. 2048 토큰 최대 완성 길이, LoRA 기반 파라메터 효율화, Gemini-3-Flash를 사용한 문제 번역, OpenThoughts에서 영어 문제를 0.5K 샘플만 발췌하여 17개 저자원 언어로 번역한다.

관련 Figure

Diagram
다국어 prompting 구성의 예시를 시각화하며, Swahili, Hausa, Swahili, Yoruba 등 다양한 언어에서의 지시문과 think-prefix를 보여준다. COPSD의 언어 제어 구성의 근거가 된다.
언어별 학생-교사 프롬프트 템플릿 시나리오 예시 스크린샷.

주요 결과

주요 벤치마크: AfriMGSM에서 COPSD는 모든 모델 규모에서 기본 모델과 GRPO 대비 평균적으로 우수한 성능을 달성했다. 예를 들어 Qwen3-1.7B에서 Base 9.11에서 COPSD 15.53으로 증가했고, Qwen3-4B는 Base 19.20에서 COPSD 20.61로, Qwen3-8B는 Base 19.41에서 COPSD 23.55로 상승했다. 1.7B에서 GRPO의 개선은 미미하며, 4B와 8B에서도 GRPO의 증가 폭은 작다. 테스트-타임 확장(1,024→4,096 토큰)에서 COPSD의 이득은 모델 크기가 커질수록 뚜렷해지며, Qwen3-8B의 경우 1,024 -> 4,096에서 Pass@12가 18.12에서 23.55로 상승한다. PolyMath 벤치마크에서도 Swahili(스와힐리)와 Telugu의 중간 난이도에서 각각 +32.0, +32.8의 큰 이득이 관찰되며, 고자원 언어의 이득은 작다. 이 결과는 COPSD가 저자원 언어에서 latent reasoning 능력을 효과적으로 전이시키는 것을 시사한다.

관련 Figure

Chart
다양한 언어에서 COPSD가 Base 및 GRPO 대비 고르게 향상되며, 특히 저자원 언어에서 큰 차이를 보인다. 시각화는 COPSD의 전이 효과를 언어별로 보여준다.
AfriMGSM의 17개 저자원 언어의 언어별 Pass@12를 축으로 한 레이더 차트이다.

Chart
COPSD는 초기 학습에서 빠르게 성능을 올리며, GRPO는 일정 수준에서 정체하는 경향이 있다. 포맷 유지율과 Pass@12의 상관관계가 양의 방향으로 나타난다.
학습 다이나믹스(트레이닝 스텝별 Pass@12 및 format rate) 그래프.

Chart
생성 버전이 증가할수록 COPSD의 이득이 커지며, 특히 8B 모델에서 강한 증가를 보인다. 더 큰 budget에서 COPSD의 상대 이득이 뚜렷하다.
Qwen3-1.7B의 1024/2048/4096 토큰 generation budget에서의 test-time scaling 그래프.

Chart
저자원 언어에서 COPSD의 이득이 가장 크고, 고자원 언어에서 이득이 작다. Swahili/Telugu의 중간 난이도에서 큰 개선이 관찰된다.
PolyMath 벤치마크의 다언어 Low/Medium/High 난이도에서의 Pass@12 변화.

기술 상세

COPSD의 아키텍처는 동일 모델에서 student와 teacher를 구현한다. student는 x(L)만 입력으로 사용하고, teacher는 x(L), x(H), y∗를 입력으로 사용한다. 두 정책의 다음 토큰 분포는 pSn = pθ(·|x(L), yˆ(L))이고 pTn = pθ(·|x(L), x(H), y∗, yˆ(L))이다. 학습 과정에서 gradient는 오직 student의 파라미터에만 전파된다. loss는 DCOPSD(ŷ(L)|x(L)) = 1/|ŷ(L)| ∑n D(pTn ∥ pSn)으로 정의되고, 전체 기대값 하에서 LO PSD(θ) = E[ D(pT ∥ pS) ]가 최소화된다. 번역/번들링에 사용하는 데이터는 OpenThoughts의 영어 문제와 해설을 privileged 정보로 사용하며, 0.5K 샘플을 17개 저자원 언어로 번역한다. LoRA로 파라미터를 조정하며 최대 완성 길이를 2048 토큰으로 고정한다. 언어 제어를 위해 토큰 뒤에 목표 언어 프롬프트를 삽입하는 프롬프트-해킹을 적용한다.

한계점

논문은 COPSD의 한계로 영어-고자원 언어를 privileged 정보로 가정하므로 영어 supervision이 불가능한 경우 적용이 제한될 수 있음을 지적한다. 번역 artefacts가 학습 품질에 영향을 줄 수 있으며, 같은 모델이 교사 분포에 과적합될 수 있어 특정 언어에서 성능이 포화되거나 감소할 수 있다.

실무 활용

COPSD는 저자원 언어에서의 수학 추론을 향상시키는 실용적 방법으로, 교차언어 근거 정보를 활용한 dense token-level 피드백으로 학습 효율을 높인다.

저자원 다국어 수학 문제 해결 챗봇 개선
저자원 현장 언어에 맞춘 교육용 대화형 에이전트 개발
다국어 추론 시스템에서 번역-추론 파이프라인의 필요 최소화

코드 공개 여부: 공개

코드 저장소 보기

키워드

COPSD(Crosslingual On-Policy Self-Distillation)multilingual reasoning(다국어 추론)low-resource languages(저자원 언어)AfriMGSM(AfriMGSM 데이터셋)PolyMath(PolyMath 벤치마크)Qwen3-1-7bGRPO

Crosslingual On-Policy Self-Distillation for Multilingual Reasoning

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

왜 중요한가

핵심 기여

COPSD 프레임워크 제안

Dense token-level distillation

다국어 저자원 언어에서의 일관된 개선

17개의 아프리카 저자원 언어 AfriMGSM에서 다양한 모델 크기(Qwen3-1.7B, 4B, 8B) 간 COPSD가 기본 모델 및 GRPO 대비 일관되게 성능을 향상시킨다.

훈련 다이나믹스와 테스트-타임 스케일링 분석

PolyMath 일반화

코드 및 데이터 공개

공개된 GitHub 저장소를 통해 COPSD의 구현과 데이터셋 접근성을 제공한다.

핵심 아이디어 이해하기

방법론

관련 Figure

주요 결과

관련 Figure

기술 상세

한계점

실무 활용

COPSD는 저자원 언어에서의 수학 추론을 향상시키는 실용적 방법으로, 교차언어 근거 정보를 활용한 dense token-level 피드백으로 학습 효율을 높인다.

저자원 다국어 수학 문제 해결 챗봇 개선
저자원 현장 언어에 맞춘 교육용 대화형 에이전트 개발
다국어 추론 시스템에서 번역-추론 파이프라인의 필요 최소화

코드 공개 여부: 공개

코드 저장소 보기

Crosslingual On-Policy Self-Distillation for Multilingual Reasoning

TL;DR

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

Crosslingual On-Policy Self-Distillation for Multilingual Reasoning

TL;DR

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드