핵심 요약
기존 LLM은 생성될 전체 길이를 사전에 파악하거나 정밀하게 제어하는 데 한계가 있었다. 이 논문은 생성 길이를 강화학습의 가치 함수 개념으로 치환하여, 추가적인 데이터 라벨링 없이도 토큰마다 남은 길이를 정확히 예측하고 제어할 수 있는 범용 프레임워크를 제시한다.
왜 중요한가
기존 LLM은 생성될 전체 길이를 사전에 파악하거나 정밀하게 제어하는 데 한계가 있었다. 이 논문은 생성 길이를 강화학습의 가치 함수 개념으로 치환하여, 추가적인 데이터 라벨링 없이도 토큰마다 남은 길이를 정확히 예측하고 제어할 수 있는 범용 프레임워크를 제시한다.
핵심 기여
토큰 단위 길이 가치 모델링 프레임워크
생성 길이를 상태 가치 함수로 정형화하여 각 디코딩 단계에서 남은 토큰 수를 예측하는 LenVM을 제안한다. 고정된 음의 보상을 할당하고 미래 단계를 할인하는 방식을 통해 길이를 유계된 단조 함수로 변환한다.
라벨링이 필요 없는 대규모 사전 학습
사람의 피드백이나 별도의 보상 모델 없이 모델이 스스로 생성한 결과물에서 학습 타겟을 자동으로 추출한다. 이를 통해 모델 크기, 프롬프트 수, 생성 결과 수에 따라 성능이 지속적으로 향상되는 확장성을 확보했다.
정밀한 길이 제어 및 성능-효율성 트레이드오프
LIFEBench 평가에서 7B 모델의 길이 일치 점수를 30.9에서 64.8로 향상시켜 폐쇄형 모델을 능가했다. 또한 지수적 틸팅 기법을 통해 추론 품질과 생성 길이 사이의 Pareto frontier를 조절할 수 있는 기능을 제공한다.
핵심 아이디어 이해하기
기존의 Transformer 기반 모델은 다음 토큰을 예측하는 데 집중할 뿐, 전체 문장이 언제 끝날지 혹은 얼마나 더 길어질지에 대한 내부적인 가이드라인이 부족했다. 시퀀스 수준에서 길이를 제한하는 방식은 전체 맥락을 고려하지 못하고 갑자기 끊기는 문제를 야기하며, 이는 Attention 메커니즘이 미래의 생성 길이를 직접적으로 인지하지 못하기 때문에 발생한다.
LenVM은 이 문제를 강화학습의 가치 추정(Value Estimation) 관점에서 해결한다. 각 토큰이 생성될 때마다 -1이라는 비용(음의 보상)이 발생한다고 가정하면, 현재 시점에서 문장이 끝날 때까지의 총 비용은 '남은 토큰 수'와 직결된다. 여기에 할인 계수(Discount Factor)를 적용하여 무한할 수 있는 길이를 -1에서 0 사이의 일정한 범위로 압축함으로써 딥러닝 모델이 학습하기 쉬운 타겟으로 변환한다.
결과적으로 모델은 각 디코딩 단계에서 현재의 은닉 상태(Hidden State)를 바탕으로 '종료까지 얼마나 멀었는지'를 수치화된 가치로 판단하게 된다. 이는 단순한 길이 예측을 넘어, 특정 토큰이 생성되었을 때 전체 추론 경로가 길어질지 짧아질지를 실시간으로 파악할 수 있게 하여 더 지능적인 생성 제어를 가능하게 한다.
방법론
LenVM은 LLM 또는 VLM의 마지막 레이어 은닉 상태 h_t에 스칼라 가치 헤드를 부착한 구조를 가진다. 이 헤드는 2개 층의 MLP와 SiLU 활성화 함수로 구성되며, 최종적으로 시그모이드 함수를 통해 V_θ(s_t) ∈ (-1, 0) 범위의 값을 출력한다.
학습 타겟인 G_t는 남은 길이 L-t에 대해 -(1 - γ^(L-t))로 계산된다. 여기서 γ는 0과 1 사이의 값으로, [남은 토큰 수 → 지수 연산 → -1~0 사이의 값] 과정을 거쳐 길이를 정규화한다. 값이 0에 가까울수록 종료가 임박했음을 의미하며, -1에 가까울수록 긴 생성이 남았음을 나타낸다.
손실 함수는 토큰 단위의 평균 제곱 오차(MSE)를 사용한다. 배치 내의 모든 프롬프트-생성 쌍에 대해 각 시점 t에서의 예측값과 실제 계산된 G_t 사이의 차이를 계산하고, 이를 전체 토큰 수로 나누어 평균을 냄으로써 모델 가중치를 갱신한다.
주요 결과
LIFEBench의 'Equal To' 제약 조건 실험에서 Qwen2.5-7B-Instruct 모델에 LenVM을 적용했을 때, 길이 점수가 30.9에서 64.8로 두 배 이상 상승했다. 이는 GPT-4o(35.5)나 Claude-Opus(35.5) 등 주요 폐쇄형 모델의 성능을 크게 상회하는 수치이다.
GSM8K 수학 벤치마크에서는 토큰 예산을 200개로 제한했을 때, 단순 중단 방식은 6%의 정확도에 그쳤으나 LenVM 기반의 지수적 틸팅을 사용한 경우 63%의 정확도를 유지했다. 이는 LenVM이 모델 내부의 짧으면서도 정확한 추론 경로를 효과적으로 찾아내어 효율성을 극대화할 수 있음을 보여준다.
확장성 분석 결과, 모델 파라미터가 1.5B에서 32B로 커짐에 따라 예측 오차(MRE)가 수학 도메인 기준 17.0%에서 9.8%로 감소하는 등 모델 및 데이터 규모에 따른 뚜렷한 성능 향상 추세를 확인했다.
기술 상세
LenVM은 길이를 직접 회귀(Regression)하는 대신 벨만 일관성(Bellman-consistent)을 갖는 할인된 리턴을 예측하도록 설계되었다. 이는 G_t = r_t + γG_{t+1} 형태의 재귀 구조를 만족하며, 이를 통해 자동 회귀적 디코딩 과정과 수학적으로 정렬된 학습 신호를 제공한다.
학습 시에는 Monte Carlo 샘플링을 통해 얻은 실제 경로의 리턴을 타겟으로 사용하며, GAE(Generalized Advantage Estimation)를 적용할 수 있는 구조를 갖추고 있어 향후 강화학습 프레임워크와의 통합이 용이하다. 특히 γ 값의 선택에 따라 초기 생성 단계의 해상도와 종료 직전의 해상도 사이의 균형을 조절할 수 있는 메커니즘을 포함한다.
수치적 안정성을 위해 fp16, bf16, fp32 등 다양한 정밀도에서 실험을 진행했으며, 모든 포맷에서 일관된 수렴 성능을 보였다. 또한 로그 길이(Log Length)나 정규화된 길이 방식보다 할인된 리턴 방식이 장기 의존성 모델링에서 더 낮은 손실 값을 기록함을 입증했다.
한계점
LenVM을 적용하기 위해서는 매 디코딩 단계마다 추가적인 가치 헤드 연산이 필요하므로 추론 지연 시간(Latency)이 다소 증가할 수 있다. 또한 본 연구에서는 추론 시점의 제어에 집중하고 있으며, 실제 강화학습 루프 내에서 모델의 정책을 직접 개선하는 실험은 향후 과제로 남겨두었다.
실무 활용
LenVM은 기존 LLM의 가중치를 수정하지 않고도 외부 헤드만으로 정밀한 길이 제어와 효율적인 추론을 가능하게 하므로 실무 적용성이 매우 높다.
- API 비용 절감을 위해 답변 품질을 유지하면서 생성 길이를 최소화하는 추론 최적화
- 요약이나 번역 작업에서 사용자가 지정한 정확한 토큰 수 제한 준수
- 추론 시작 전 필요한 메모리 및 대기 시간을 사전에 예측하여 서버 자원 할당 최적화
- 강화학습(PPO) 학습 시 길이에 따른 보상을 조절하는 가치 베이스라인으로 활용
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.