핵심 요약
표준적인 확률적 샘플링은 겉모습만 다른 문장을 생성할 뿐 실제 추론 전략의 다양성을 확보하지 못하는 한계가 있다. 이 논문은 모델 내부의 잠재 표현을 실시간으로 학습하여 이미 탐색된 경로를 피하고 새로운 의미적 영역을 탐색하게 함으로써 추론 성능과 효율성을 동시에 개선한다.
왜 중요한가
표준적인 확률적 샘플링은 겉모습만 다른 문장을 생성할 뿐 실제 추론 전략의 다양성을 확보하지 못하는 한계가 있다. 이 논문은 모델 내부의 잠재 표현을 실시간으로 학습하여 이미 탐색된 경로를 피하고 새로운 의미적 영역을 탐색하게 함으로써 추론 성능과 효율성을 동시에 개선한다.
핵심 기여
Exploratory Sampling (ESamp) 제안
LLM 생성 과정에서 예측 가능한 잠재 표현을 가진 토큰에 페널티를 부여하여 모델이 이전에 탐색하지 않은 의미 영역으로 생성 방향을 틀도록 유도하는 새로운 디코딩 알고리즘이다.
경량 Latent Distiller (LD) 도입
테스트 시점에 실시간으로 얕은 층의 표현에서 깊은 층의 표현으로의 전이를 학습하는 2계층 MLP 모듈을 활용하여 현재 문맥의 참신함을 수치화한다.
고효율 비동기 파이프라인 구현
Distiller의 학습과 추론을 메인 LLM 실행과 분리하여 병렬 처리함으로써 표준 서빙 시나리오에서 5% 미만의 무시할 만한 오버헤드만 발생시킨다.
핵심 아이디어 이해하기
기존의 LLM 샘플링 방식은 Softmax 확률 분포에 무작위성을 더해 토큰 수준의 변화를 주지만, 이는 단어 선택만 바뀔 뿐 논리적 구조는 동일한 중복 답변을 양산하는 경우가 많다. 신경망은 이전에 경험한 데이터와 유사한 입력에 대해서는 예측 오차가 낮고, 새로운 패턴에 대해서는 오차가 높다는 특성을 가진다.
ESamp는 이 원리를 이용해 모델 내부의 '의미적 참신함'을 측정한다. 생성 중에 LLM의 초기 레이어 정보를 입력받아 최종 레이어 정보를 예측하도록 아주 작은 보조 모델(Distiller)을 실시간으로 학습시킨다. 만약 보조 모델이 다음 상태를 잘 예측한다면 이는 이미 익숙하거나 중복된 논리 경로임을 의미하며, 예측 오차가 크다면 새로운 의미적 시도임을 나타낸다.
결과적으로 모델은 예측 오차가 큰, 즉 '새로운 시도'에 해당하는 토큰에 더 높은 점수를 주어 생성 방향을 유도한다. 이를 통해 단순한 단어 교체가 아닌, 근본적으로 다른 추론 전략을 가진 답변들을 생성하게 되어 복잡한 문제 해결 능력이 비약적으로 상승한다.
방법론
ESamp는 LLM 생성을 마르코프 결정 과정(MDP)으로 모델링하고, KL-regularized 최적화 목적 함수를 통해 참신함에 대한 내재적 보상(Intrinsic Reward)을 정의한다. 핵심 구성 요소인 Latent Distiller(LD)는 2계층 MLP 구조로, 얕은 층의 은닉 표현 h¹을 입력받아 깊은 층의 표현 hᴸ을 예측하는 fφ(h¹) → ĥᴸ 연산을 수행한다.
생성된 토큰의 실제 깊은 층 표현 hᴸ과 예측값 ĥᴸ 사이의 유클리드 거리를 계산하여 오차 벡터 e = hᴸ - ĥᴸ을 구한다. 이 오차 벡터의 크기 ||e||₂는 문맥의 참신함을 나타내며, 언어 모델 헤드(Whead)의 가중치와 오차 벡터 사이의 코사인 유사도 cos(wz, e)를 통해 각 후보 토큰 z가 참신한 방향으로 생성을 유도하는지 평가한다.
최종적으로 새로운 샘플링 로짓은 기존 로짓에 탐색 강도 β와 참신함 점수를 곱해 더한 logit_new = logit_ref + β(logit_ref - logit_dist) 형태로 계산된다. 이 과정은 비동기 CUDA 스트림을 통해 구현되어, LLM의 중간 레이어 연산 중에 Distiller의 추론이 병렬로 이루어지고 GPU의 유휴 시간에 Distiller의 가중치가 업데이트된다.
관련 Figure

LLM의 첫 번째 레이어 출력이 Distiller(Dis)로 전달되어 최종 레이어 출력을 예측하고, 이 예측값과 실제값의 차이가 로짓 믹싱(Mix) 단계에서 샘플링에 반영되는 과정을 시각화한다. 이를 통해 모델이 실시간으로 의미적 중복을 감지하고 피하는 메커니즘을 이해할 수 있다.
ESamp의 전체적인 디코딩 프레임워크와 Latent Distiller의 작동 구조를 보여주는 다이어그램이다.
주요 결과
AIME24, AIME25와 같은 고난도 수학 벤치마크에서 ESamp는 표준 샘플링 대비 월등한 Pass@k 효율을 보였다. 특히 GPT-OSS-20B 모델에서 ESamp의 Pass@8 결과는 기존 베이스라인의 Pass@64 결과와 맞먹는 효율성을 입증했다.
창의적 글쓰기 실험에서도 Vendi Score(다양성 지표)가 1.62에서 1.67로 상승하는 동시에 Perplexity(언어적 일관성)는 4.08에서 3.55로 낮아져, 다양성과 품질 사이의 트레이드오프를 극복했음을 확인했다. 효율성 측면에서는 RTX4090 GPU 기준 1.2%에서 4.25% 수준의 매우 낮은 처리량 오버헤드만 기록했다.
관련 Figure

ESamp(빨간색 선)가 모든 구간에서 기존의 Contrastive Decoding이나 Vanilla 샘플링보다 높은 성능을 기록하며, 특히 적은 샘플 수에서도 높은 정답률을 확보하는 효율성을 보여준다.
다양한 모델과 벤치마크에서 샘플 수(k)에 따른 Pass@k 성능 변화를 비교한 그래프이다.
기술 상세
ESamp는 RND(Random Network Distillation) 개념을 LLM의 내부 잠재 공간으로 확장했다. 고차원 이산 분포인 어휘 공간 대신 연속적인 은닉 표현 공간에서 참신함을 측정함으로써 온라인 학습의 안정성을 확보했다. 아키텍처적으로는 vLLM 프레임워크 위에 tLLM이라는 런타임 레이어를 구축하여 모델 수정 없이 훅(Hook)을 통해 내부 상태를 추출하고 제어한다. 수학적으로는 토큰 수준의 KL-regularized 강화학습 프레임워크를 따르며, 닫힌 형태(Closed-form)의 최적 정책 솔루션을 샘플링 로짓 수정에 직접 적용한다.
한계점
논문은 Distiller가 특정 문맥에 너무 빠르게 적응(Rapid Fitting)할 경우 일시적인 참신함 신호가 사라질 수 있으며, 매우 이질적인 문제들이 섞인 배치 환경에서는 공유 Distiller가 간섭을 일으킬 가능성이 있음을 언급했다.
실무 활용
추론 비용이 많이 드는 복잡한 문제 해결이나 창의적 콘텐츠 생성 서비스에서 적은 샘플링 횟수로도 정답을 찾거나 다양한 결과물을 얻는 데 즉시 적용 가능하다.
- 수학 및 코딩 문제 해결을 위한 Self-Consistency 샘플링 효율 개선
- 반복적인 문구 생성을 피해야 하는 창의적 글쓰기 및 스토리텔링 에이전트
- 다양한 논리적 경로를 탐색해야 하는 에이전트의 계획(Planning) 단계 최적화
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.