TL;DR
대형 언어 모델에 대한 RL은 탐색-활용 균형이 점차 깨지며 엔트로피가 붕괴하는 현상을 보인다. Entrocraft는 엔트로피 곡선을 사용자가 정의한 일정으로 조정하는 간단한 거절 샘플링 기반 컨트롤러를 제공하여, 엔트로피 드리프트를 억제하고 장기 학습에서의 성능 향상을 가능하게 한다. 이는 엔트로피 정규화나 클리핑 없이도 동작하며, 기존 RL 알고리즘의 개선 여지를 확장한다. 선형(linear) 엔트로피 감소 일정이 가장 우수한 성능을 보였고, 4B 모델이 8B baseline을 능가하는 사례를 보이는 등 실험적으로 검증되었다.
왜 중요한가
대형 언어 모델에 대한 RL은 탐색-활용 균형이 점차 깨지며 엔트로피가 붕괴하는 현상을 보인다. Entrocraft는 엔트로피 곡선을 사용자가 정의한 일정으로 조정하는 간단한 거절 샘플링 기반 컨트롤러를 제공하여, 엔트로피 드리프트를 억제하고 장기 학습에서의 성능 향상을 가능하게 한다. 이는 엔트로피 정규화나 클리핑 없이도 동작하며, 기존 RL 알고리즘의 개선 여지를 확장한다. 선형(linear) 엔트로피 감소 일정이 가장 우수한 성능을 보였고, 4B 모델이 8B baseline을 능가하는 사례를 보이는 등 실험적으로 검증되었다.
핵심 기여
Entropy 변화의 이론적 연결 고리 제시
토큰 수준 및 시퀀스 수준에서의 엔트로피 변화 ∆H가 기대 이점(Advantage)과 음의 상관관계를 보이며, 출력 공간 기댓값 및 로그 가능도 기준선을 넘는 경우에 특히 강하게 나타난다는 정리(정리 1, 정리 2)를 제시한다.
샘플 거절 샘플링 기반의 경량 엔트로피 컨트롤러 도입
RL 업데이트에 기여하는 샘플의 분포를 직접 수정하지 않고, rollout 샘플을 선택적으로 포함시키거나 제외시키는 간단한 거절 샘플링 필터를 도입한다. RL 객체에는 영향 없이 엔트로피 곡선을 설계 가능하며, 엔트로프 곡선은 엔트로피 목표에 맞춰 빠르게 수렴한다.
엔트로피 곡선 커스터마이징 및 학습 스케줄링 가능
Entropy curve를 사용자가 원하는 형태로 설계할 수 있으며, 단일 정책-마진에서의 학습률 스케줄링처럼 엔트로피를 조정하는 방법을 제시한다. 선형 디케이(linear-decay) 엔트로피 커브가 최적의 성능을 보였으며 cosine decay 역시 안정적으로 동작한다.
실험적으로 성능 포화 완화 및 일반화 개선 증명
4B 모델이 8B baseline을 상회하는 최종 성능, 출력 다양성 증가, 학습 지속 시간의 4배 확장, 평균적으로 pass@32의 개선이 관측되었다. 벤치마크에서 Entrocraft는 여러 entropy-preserving 방법보다 우수한 성능을 보였다.
방법론
[1] 전체 접근 방식과 핵심 아이디어: Entrocraft은 정책 업데이트에 기여하는 rollout 샘플을 entropy 목표 구간으로 유지하기 위해 rejection sampling을 사용한다. 현재 엔트로피 H가 구간 (hlow, hhigh) 밖으로 벗어나면 m = I(H > hhigh) − I(H < hlow)로 방향을 판단하고, A_hat(x, yi)와 부호를 맞추어 샘플 yi를 선택적으로 유지한다. [2] 샘플링 메커니즘의 수학적 기반: 엔트로피 변화 ∆H는 샘플의 확률 변화 δp에 의해 근사되며, ∆H ≈ −δpk log pk − Σi≠k δpi log pi + O(∥δp∥^2)와 같이 표현될 수 있다. 양의 Advantage를 가진 샘플의 확률이 증가하면 엔트로피 감소가 발생하고, 그 반대의 경우엔 증가한다. [3] 구현적 특징: Entrocraft는 RL objective를 수정하지 않고도 entropy curve를 제어 가능하게 하며, 모든 policy-gradient 메서드에 드롭인으로 적용 가능하다. [4] 엔트로피 커브 설계: 초기 엔트로피를 0.6 전후로 시작해 점차 0.2로 감소하는 선형(decay) 스케줄이 실험에서 최적의 성능을 보였다. [5] 학습-설계 요건: Assumption 1(학습률의 충분히 작은 크기에 따른 정책 업데이트의 테일러 전개 근사) 하에 Theorem 1, 2를 통해 엔트로피 변화의 부호를 이론적으로 제시한다. [6] 학습 환경 및 구현: verl 프레임워크 기반으로, vLLM으로 추론하고 FSDP2로 학습한다. 8개의 NVIDIA H100 GPU를 사용하며, train_batch_size는 1024, rollout.n은 8, 학습률은 1e-6, kl_loss_coef은 1e-3 등 하이퍼파라미터를 사용한다.
관련 Figure

Entropy 제어의 구체적 작동 원리와 샘플링 필터의 효과를 한 눈에 보여주며, 방법론 섹션의 핵심 아이디어를 효율적으로 시각화한다.
Entrocraft의 RL Flow와 Entrocraft Flow, Entropy Curve 제어 구성 및 비교 도식이다.
주요 결과
[주요 벤치마크] MATH-500 mean@32에서 GRPO 대비 Entrocraft이 79.0으로 향상(기본 75.3). AMC-23 mean@32는 65.0으로 증가(기본 57.4). AIME-25 mean@32은 15.1로 상승(기본 8.9). Avg. Score mean@32는 53.5로 상승(기본 47.2). pass@32 지표에서도 Entrocraft이 상향을 보였으며, 전체 평균에서 최상위 성능을 기록했다. [모델 크기/추론 비용] 4B 모델이 8B 베이스라인을 상회하는 사례를 관찰했다. [엔트로피 곡선] Entrocraft는 엔트로피를 목표치 0.8에 안정적으로 유지하는 흐름을 보였으며, Baseline 대비 엔트로피 산포를 안정적으로 관리했다. [롱-텀 RL] 표 3의 장기 RL 비교에서 Entrocraft은 엔트로피 포화 문제를 줄이고, GRPO 대비 지속적 개선을 나타냈다. [엔트로피 스케줄링] 선형 디케이 스케줄이 가장 높은 성능을 보여, 엔트로피 곡선을 하향/상향 조정하는 데 있어 가장 신뢰할 수 있는 전략으로 확인되었다.
기술 상세
[아키텍처] Inference Engine과 Training Engine 사이에 Entrocraft Flow가 위치하며, 샘플링 기반의 엔트로피 제어 컨트롤러가 rollout 샘플을 필터링한다. [수학적 기반] Token-level entropy change ∆H는 각 토큰의 확률 변화 δpk와 로그 확률 pk에 의해 결정되며, A_hat와의 관계식에서 부호 반대의 경향이 나타난다. [이론적 차별점] 엔트로피 변화가_advantage와의 음의 상관관계임을 최소 가정 하에서 보장하는 정리 1 및 정리 2를 제시한다. [구현/학습 세부사항] verl 프레임워크, vLLM, FSDP2를 사용하며, train_batch_size=1024, rollout.n=8, optim.lr=1e-6, kl_loss_coef=1e-3, val_kwargs.temperature=0.6 등 하이퍼파라미터를 사용한다. [한계점 및 미래 방향] 단일 Turn 수학 추론 태스크에 주로 검증되었으며, 다중-turn RL 및 MoE 모델에의 확장은 향후 연구 방향이다.
한계점
논문은 single-turn math reasoning 태스크에 주로 검증되었고, multi-turn RL 또는 mixture-of-expert(MoE) 모델에 대한 확장은 아직 다루지 않았다.
실무 활용
Entrocraft는 policy-gradient RL에 드롭인으로 작동하는 엔트로피 제어 프레임워크로, 엔트로피 목표를 미리 정의하고 현재 엔트로피를 기준으로 샘플링을 제어한다.
- LLM RL에서 엔트로피 붕괴로 인한 성능 포화를 완화하려는 연구/실험 설정
- GRPO, GSPO 등 기존 정책최적화 알고리즘에 엔트로피 제어를 추가하고자 할 때의 모듈화된 개선
- 장기 학습에서의 일반화 및 출력 다양성 향상을 목표로 하는 파인튜닝 파이프라인
- 선형/Cosine 엔트로피 커브를 비교하여 최적의 학습 스케줄링 찾기
- 대형 모델에서의 파이프라인 규모 확장 시 엔트로피 관리의 중요성 검증
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.