핵심 요약
LLM이 강화학습을 통해 문제를 풀 때, 정답을 맞히는 몇 가지 방식에만 집착하여 더 나은 해결책을 찾지 못하는 '모드 붕괴' 현상을 해결한다. 전체 경로의 다양성과 토큰 단위의 무작위성을 동시에 관리하여 모델이 더 창의적이고 견고한 논리 전개 방식을 학습하도록 돕는다.
왜 중요한가
LLM이 강화학습을 통해 문제를 풀 때, 정답을 맞히는 몇 가지 방식에만 집착하여 더 나은 해결책을 찾지 못하는 '모드 붕괴' 현상을 해결한다. 전체 경로의 다양성과 토큰 단위의 무작위성을 동시에 관리하여 모델이 더 창의적이고 견고한 논리 전개 방식을 학습하도록 돕는다.
핵심 기여
이중 스케일 탐색 관점 제시
LLM 추론에서 글로벌(경로 간) 다양성과 로컬(경로 내) 다양성을 명확히 구분하고 이들의 상호보완적 역할을 정의했다.
DSDR 프레임워크 제안
정답 경로 간의 다양성을 장려하는 글로벌 정규화와 정답 경로 내의 엔트로피를 유지하는 로컬 정규화를 결합한 강화학습 프레임워크를 구축했다.
글로벌-로컬 결합 메커니즘
글로벌 차원에서 더 독특한 정답 경로에 더 많은 로컬 엔트로피 정규화 강도를 할당하는 소프트맥스 기반 배분 방식을 도입했다.
이론적 및 실험적 검증
정규화가 정답률을 해치지 않음을 이론적으로 증명하고, AIME 및 MATH500 벤치마크에서 기존 GRPO 대비 유의미한 성능 향상을 입증했다.
핵심 아이디어 이해하기
강화학습에서 에이전트는 보상을 최대화하는 방향으로 학습하는데, LLM 추론의 경우 정답(보상 1)을 맞히는 특정 패턴을 발견하면 그 방식에만 안주하게 된다. 이는 Gradient Descent 과정에서 손실 함수가 국소 최적점(Local Optima)에 빠지는 것과 유사하며, 결과적으로 모델은 다양한 풀이 경로를 탐색하지 못하고 획일화된 답변만 생성하게 된다.
DSDR은 이를 해결하기 위해 정답을 맞힌 경로들 사이의 '거리'를 계산하여 서로 얼마나 다른지 측정한다. 단순히 토큰을 무작위로 생성하는 것이 아니라, 전체 문장의 의미적(Semantic) 차이와 수학적 수식(Formula)의 차이를 동시에 고려한다. 이렇게 측정된 '독창성' 점수를 바탕으로, 남들과 다른 독특한 방식으로 정답을 맞힌 경로 주변을 더 집중적으로 탐색하도록 유도한다.
구체적으로는 Softmax 함수를 활용해 독창적인 경로에 더 높은 가중치를 부여하고, 해당 경로 내에서 토큰 단위의 엔트로피(불확실성)가 급격히 낮아지는 '엔트로피 붕괴'를 막는다. 이를 통해 모델은 하나의 정답에 매몰되지 않고, 정답 근처의 다양한 변형된 논리 구조를 충분히 경험하며 더 일반화된 추론 능력을 갖추게 된다.
방법론
DSDR은 GRPO(Group Relative Policy Optimization)를 기반으로 하며, 샘플링된 그룹 내에서 정답을 맞힌 결과물들에 대해 글로벌 다양성 점수를 계산한다. 글로벌 점수 d(oi)는 문장 임베딩의 코사인 유사도를 이용한 의미적 거리와 추출된 수학 공식의 고유성을 결합하여 산출된다.
계산된 글로벌 점수는 소프트맥스 함수를 통해 로컬 정규화 가중치 wi로 변환된다. [글로벌 점수 d_i를 입력으로] → [지수 함수 exp(τ d_i)를 적용하고 그룹 내 합계로 나누어] → [0에서 1 사이의 가중치 w_i를 얻고] → [이 값은 해당 경로가 얼마나 독창적인지에 따라 로컬 엔트로피 보너스를 얼마나 줄지 결정하는 척도가 된다].
로컬 정규화는 길이 불변(Length-invariant) 토큰 단위 엔트로피를 사용한다. [각 시점 t에서의 토큰 확률 분포 π를 입력으로] → [-Σ π log π 연산을 통해 엔트로피를 계산하고 시퀀스 길이 T로 나누어] → [평균 엔트로피 값을 얻고] → [이를 통해 모델이 특정 토큰에 과도하게 확신하여 다른 가능성을 배제하는 것을 방지한다].
주요 결과
Qwen2.5-Math-1.5B 모델에서 DSDR은 평균 25.4%의 Pass@1 정확도를 기록하며 기본 모델(11.9%) 및 GRPO(23.2%)를 상회했다. 특히 AIME24 벤치마크에서는 GRPO(16.7%) 대비 높은 20.0%를 달성했다.
모델 크기가 커질수록 성능 향상 폭이 두드러졌다. Qwen3-4B 모델의 경우 AIME24에서 56.67%를 기록하여 GRPO(36.67%)와 DAPO(33.33%)를 큰 차이로 앞질렀으며, MATH500에서도 66.2%로 최고 성능을 보였다.
Ablation Study 결과, 글로벌 다양성(GD)이나 글로벌-로컬 결합(GC) 중 하나라도 제거할 경우 성능이 유의미하게 하락했다. 이는 경로 수준의 차별화와 토큰 수준의 탐색이 유기적으로 연결되어야 함을 시사한다.
기술 상세
DSDR은 RLVR 환경에서 보상 함수를 r_tilde = r + λ_d * d_bar * I(r=1) 형태로 수정하여 정답인 경우에만 다양성 보너스를 부여한다. 여기서 d_bar는 클리핑된 글로벌 다양성 점수이며, 이는 보상 해킹을 방지하고 정답률 보존을 보장한다.
글로벌 다양성 점수는 Semantic Level(Sentence-BERT 기반 임베딩 유사도)과 Formula Level(수식 고유성 지표)의 평균으로 정의된다. 이는 텍스트의 표현 방식과 논리적 수식 전개라는 두 가지 측면에서 다양성을 동시에 확보하기 위함이다.
이론적으로 DSDR의 소프트맥스 배분 방식은 엔트로피 정규화된 자원 배분 문제의 최적해임을 증명했다. 또한 로컬 정규화 계수 λ_ℓ이 특정 임계값(Δ/H_max)보다 작을 경우, 정규화된 목적 함수를 최대화하는 정책이 항상 정답률 최적 정책임을 보장하는 Correctness Preservation 정리를 제시했다.
한계점
로컬 정규화 계수 λ_ℓ이 너무 클 경우 학습 불안정성과 성능 저하가 발생할 수 있음을 확인했다. 또한 정답이 명확하지 않은 개방형 생성 작업에서의 효과는 본 논문의 실험 범위를 벗어난다.
실무 활용
수학, 코드 생성 등 정답이 명확한 추론 작업에서 LLM의 문제 해결 능력을 강화하는 데 즉시 활용 가능하다. 특히 모델이 특정 풀이 방식에만 고착화되는 문제를 해결하여 더 다양한 시나리오에 대한 대응력을 높일 수 있다.
- 수학 문제 풀이 모델의 추론 경로 다양화 및 정확도 개선
- 코드 생성 모델에서 동일한 기능을 수행하는 다양한 알고리즘 탐색 유도
- 복잡한 논리적 추론이 필요한 에이전트의 의사결정 프로세스 강화
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.