딥러닝논문읽기모임Research

TTRL: 테스트 시점 강화학습을 통한 LLM 추론 능력 향상

테스트 시점에 라벨 없는 데이터로 다수결 투표 기반 보상을 생성하여 모델의 추론 성능을 실시간으로 개선하는 TTRL 기법을 소개합니다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

정답이 없는 테스트 데이터에서도 다수결 투표(Majority Voting)를 통해 가상 보상을 생성하고 모델을 업데이트함으로써 추론 성능을 비약적으로 향상시킬 수 있다.

배경

DeepSeek-R1, OpenAI o1 등 추론 모델의 등장으로 Test-Time Compute의 중요성이 커진 상황에서 정답 라벨 없이 모델을 개선하는 연구가 필요해졌다.

대상 독자

AI 연구자, LLM 개발자, 강화학습 전공자

의미 / 영향

TTRL은 데이터 라벨링 비용을 획기적으로 줄이면서도 특정 도메인에 최적화된 모델을 실시간으로 구축할 수 있는 길을 열었다. 이는 정답이 존재하지 않는 복잡한 비즈니스 의사결정이나 과학적 탐구 영역에서 AI의 자율적 성능 개선을 가능하게 할 것이다. 향후 실시간 스트리밍 데이터에 대한 적응형 학습 시스템 구축에 핵심적인 방법론으로 자리 잡을 것으로 예상된다.

챕터별 상세

00:43

LLM 학습 패러다임의 변화와 Test-Time Scaling

기존 LLM 성능 향상은 주로 학습 시점(Train-time)의 데이터와 파라미터 수를 늘리는 스케일링 법칙에 의존했다. 하지만 최근에는 추론 시점(Test-time)에 연산량을 늘려 성능을 높이는 방향으로 패러다임이 전환되었다. OpenAI o1이나 DeepSeek-R1처럼 모델이 답변 전 사고 과정(Reasoning Path)을 길게 가져가는 방식이 대표적이다. TTRL은 이러한 흐름에서 한 발 더 나아가 추론 시점에 모델을 직접 학습시키는 접근법을 취한다.

•학습 시점 스케일링의 한계를 극복하기 위해 Test-time compute 활용이 증가했다.
•DeepSeek-R1은 GRPO 알고리즘을 통해 추론 능력을 극대화했다.
•TTRL은 추론 시점에 발생하는 데이터를 학습에 즉시 반영한다.

Chinchilla Scaling Law는 모델 크기와 데이터 양의 균형을 강조하며, 최근에는 추론 시점의 연산 효율성이 핵심 화두이다.

08:31

Test-Time Scaling의 분류: TTI vs TTT

테스트 시점 스케일링은 크게 TTI(Test-Time Inference)와 TTT(Test-Time Training)로 나뉜다. TTI는 여러 후보 답변을 생성한 뒤 최적의 답을 선택하거나(Best-of-N), 사고 과정을 길게 가져가는(CoT) 방식이다. 반면 TTT는 테스트 시점에 들어온 데이터를 사용해 모델의 파라미터를 직접 업데이트한다. TTRL은 TTT 카테고리에 속하며, 정답 라벨이 없는 환경에서도 모델을 스스로 개선하는 자기 지도 학습(Self-supervised) 성격을 띤다.

•TTI는 Best-of-N, Majority Voting 등 결과 선택 기법을 포함한다.
•TTT는 테스트 데이터 분포에 맞춰 모델을 실시간 최적화한다.
•TTRL은 라벨 없는 데이터로 강화학습을 수행하는 TTT의 진화된 형태이다.

TTI는 모델 가중치를 고정하고 연산만 늘리는 반면, TTT는 가중치 자체를 미세 조정한다.

12:09

TTRL의 핵심 메커니즘: Majority Voting 기반 보상 설계

TTRL은 정답 라벨이 없는 테스트 쿼리에 대해 모델이 N개의 답변 샘플을 반복 생성하도록 한다. 생성된 샘플들 중 다수결 투표(Majority Voting)를 통해 가장 많이 등장한 답변을 가상 정답(Estimated Label)으로 설정한다. 이 가상 정답과 일치하는 샘플에는 보상 1을, 일치하지 않는 샘플에는 보상 0을 부여한다. 이렇게 계산된 보상을 바탕으로 GRPO나 PPO 같은 강화학습 알고리즘을 적용해 모델의 정책을 업데이트한다.

•N개의 샘플링을 통해 가상 정답(Pseudo-label)을 도출한다.
•가상 정답과의 일치 여부를 규칙 기반 보상(Rule-based reward)으로 사용한다.
•라벨 없이도 자기 개선(Self-improvement)이 가능한 루프를 형성한다.

Majority Voting은 정답을 모르는 상황에서 모델의 내부적 합의(Consensus)를 정답의 대리 지표로 활용한다.

python

def majority_voting_reward_fn(outputs):
    # 각 출력에서 정답(answer) 추출
    answers = [extract_answer(out) for out in outputs]
    
    # 가장 빈번한 답변(Consensus) 찾기
    from collections import Counter
    counts = Counter(answers)
    majority_answer, _ = counts.most_common(1)[0]
    
    # 다수결 답변과 일치하면 보상 1, 아니면 0 부여
    rewards = [1 if ans == majority_answer else 0 for ans in answers]
    return rewards

TTRL의 핵심인 다수결 투표 기반 보상 함수 구현 예시

14:41

벤치마크 성능 분석 및 실험 결과

Qwen 2.5 및 Llama 3.1 모델을 대상으로 수학 벤치마크(MATH, AIME)에서 실험한 결과, TTRL 적용 시 성능이 크게 향상되었다. 특히 소형 모델인 Qwen 1.5B에서도 TTRL을 통해 상위 모델 수준의 성능 개선이 확인되었다. 재미있는 점은 정답 라벨을 직접 사용한 강화학습(RL Leakage) 결과와 비교했을 때도 TTRL이 이에 근접하는 성능을 보였다는 것이다. 이는 다수결 투표가 정답 라벨의 훌륭한 대체재가 될 수 있음을 시사한다.

•다양한 크기의 모델에서 일관된 성능 향상을 기록했다.
•라벨을 사용한 학습과 유사한 수준의 최적화 효율을 보였다.
•Out-of-distribution 데이터에서도 일반화 성능이 유지되었다.

AIME는 고난도 수학 경시 대회 문제로 구성된 벤치마크로, 모델의 심화 추론 능력을 측정한다.

21:12

TTRL의 한계점과 실패 사례 분석

TTRL이 항상 성공하는 것은 아니다. 모델의 사전 지식(Prior Knowledge)이 너무 부족하여 다수결 투표 결과 자체가 오답으로 편향된 경우 성능이 오히려 하락하거나 정체된다. 또한 강화학습의 특성상 하이퍼파라미터(Temperature, Batch size 등) 설정에 매우 민감하게 반응한다. 특히 난이도가 매우 높은 태스크에서는 초기 샘플링에서 정답 근처에도 가지 못하면 학습 루프가 붕괴되는 현상이 발생한다.

•모델의 기초 체력이 부족한 고난도 문제에서는 효과가 제한적이다.
•하이퍼파라미터 설정이 학습의 안정성에 결정적인 영향을 미친다.
•잘못된 다수결 결과가 보상으로 작동할 경우 성능 저하의 위험이 있다.

강화학습에서 보상 신호가 노이즈가 많을 경우 학습이 발산하거나 잘못된 방향으로 수렴할 수 있다.

실무 Takeaway

정답 라벨이 없는 실전 데이터에서도 Majority Voting을 활용해 강화학습 보상 신호를 구축할 수 있다.
Test-time에 모델을 업데이트하는 TTT 방식이 추론 성능의 새로운 한계를 돌파하는 핵심 도구가 될 것이다.
TTRL의 성공은 모델의 초기 성능(Backbone capability)에 크게 의존하므로 기초 모델의 품질이 우선되어야 한다.
하이퍼파라미터 튜닝, 특히 Temperature 조절을 통해 샘플의 다양성을 확보하는 것이 TTRL 성능의 관건이다.

언급된 리소스

논문TTRL: Test-Time Reinforcement Learning

논문DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2025. 12. 04.수집 2026. 02. 21.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.

TTRL: 테스트 시점 강화학습을 통한 LLM 추론 능력 향상 | AI Trends