LLM을 개선하는 LLM: 테스트 타임 스케일링을 위한 에이전트 기반 탐색

LLM 추론 시 연산량을 늘려 성능을 높이는 Test-Time Scaling(TTS) 전략은 그동안 연구자의 직관에 의존해 수동으로 설계되었습니다. AutoTTS는 이러한 전략 설계를 자동화하여 단 39.9달러의 비용과 160분의 탐색만으로 기존 수동 설계 방식보다 뛰어난 정확도-비용 효율을 달성했습니다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

환경 중심의 TTS 전략 탐색 프레임워크 AutoTTS 제안

연구자가 개별 TTS 규칙을 직접 설계하는 대신, 에이전트가 최적의 전략을 스스로 발견할 수 있는 탐색 환경을 구축하는 방식으로 패러다임을 전환했다.

오프라인 리플레이 환경 구축을 통한 탐색 효율 극대화

미리 수집된 추론 경로와 프로브 신호를 활용하여 추가적인 LLM 호출 없이도 새로운 전략을 저비용으로 평가할 수 있는 결정론적 환경을 구현했다.

베타 파라미터화 및 실행 추적 피드백 도입

복잡한 하이퍼파라미터를 단일 스칼라 값인 베타(β)로 제어하여 탐색 공간을 축소하고, 상세한 실행 로그를 에이전트에게 제공해 전략 수정의 정밀도를 높였다.

핵심 아이디어 이해하기

기존의 LLM 추론은 고정된 연산량을 사용하거나 연구자가 미리 정해둔 단순한 규칙(예: 64번 반복 후 다수결)에 따라 추가 연산을 할당했다. 하지만 문제의 난이도에 따라 필요한 연산량은 다르며, 언제 새로운 추론 경로를 만들고(Branch) 언제 유망하지 않은 경로를 제거할지(Prune) 결정하는 최적의 지점은 직관만으로 찾기 어렵다.

AutoTTS는 이 문제를 '에이전트가 수행하는 알고리즘 탐색' 문제로 재정의한다. 먼저 다양한 추론 경로를 미리 생성해두고 이를 데이터베이스화한다. 에이전트는 이 데이터베이스 위에서 '이 시점에 프로브(Probe)를 수행해 중간 결과를 확인하고, 확신이 낮으면 경로를 추가한다'와 같은 코드를 작성한다.

작성된 코드는 실제 LLM을 다시 구동할 필요 없이 저장된 데이터를 '리플레이'하며 성능을 즉시 평가받는다. 이 과정에서 에이전트는 단순히 정확도 점수만 받는 것이 아니라, 자신이 짠 코드가 어떤 단계에서 자원을 낭비했는지 혹은 너무 일찍 포기했는지에 대한 상세한 실행 추적(Execution Trace)을 분석하여 다음 라운드에 더 나은 전략을 제안한다.

방법론

AutoTTS는 TTS 전략을 폭(Width)과 깊이(Depth)를 조절하는 컨트롤러 합성 문제로 정형화한다. 컨트롤러는 BRANCH, CONTINUE, PROBE, PRUNE, ANSWER라는 5가지 원자적 동작을 조합하여 추론 예산을 할당한다.

탐색 효율을 위해 베타 파라미터화(Beta Parameterization)를 적용한다. 모든 내부 하이퍼파라미터를 단일 스칼라 β에 대한 단조 함수로 정의하여, β가 커질수록 더 많은 예산을 사용하도록 강제한다. 이는 탐색 공간을 1차원으로 축소하여 오버피팅을 방지한다.

탐색 루프는 에이전트 LLM(Claude Code)이 이전 라운드의 정확도-비용 곡선과 실행 추적 로그를 읽고 컨트롤러 코드를 직접 수정하는 방식으로 진행된다. 수집된 추론 경로 데이터셋(Replay Buffer)에서 시뮬레이션되므로 전략 평가에 드는 비용이 매우 저렴하다.

주요 결과

수학적 추론 벤치마크인 AIME24에서 탐색된 전략은 Qwen-3-1.7B 모델 기준, 기존 수동 설계 방식인 SC@64 대비 토큰 소비량을 약 69.5% 절감하면서도 동등한 정확도를 유지했다. β=1.0 설정 시에는 모든 수동 베이스라인의 최대 성능을 뛰어넘는 결과를 보였다.

일반화 성능 측면에서도 우수함이 증명됐다. AIME24에서 발견된 전략을 별도의 데이터셋인 AIME25와 HMMT25에 적용했을 때도 일관되게 더 나은 Pareto Frontier(정확도-비용 최적선)를 형성했다. 또한 DeepSeek-R1-Distill-Llama-8B와 같은 다른 모델 가문에서도 성능 향상이 확인됐다.

기술 상세

AutoTTS의 핵심 아키텍처는 오프라인 리플레이 MDP(Markov Decision Process)를 기반으로 한다. 상태(State)는 질문, 활성 경로 수, 각 경로의 깊이, 노출된 프로브 결과, 남은 예산으로 구성된다. 보상 함수는 정확도와 연산 비용 간의 트레이드오프를 조절하는 γ 파라미터를 포함한 목적 함수를 최대화하도록 설계됐다.

발견된 최적의 컨트롤러인 CMC(Confidence Momentum Controller)는 네 가지 비직관적인 메커니즘을 포함한다. 1) EMA(Exponential Moving Average) 기반의 모멘텀 정지 규칙, 2) 신뢰도 변화량(Delta)에 따른 폭-깊이 연동 제어, 3) 정답 후보 일치 여부에 따른 차등적 깊이 할당, 4) 보수적인 경로 포기 전략이다. 이는 수동 설계로는 도달하기 어려운 복잡한 논리 구조를 가진다.

한계점

현재 AutoTTS는 폭과 깊이를 조절하는 2D 제어 공간에 국한되어 있다. 향후 더 복잡한 제어 구조나 트리 탐색 등을 포함하도록 확장할 필요가 있으며, 현재는 Claude Code와 같은 고성능 에이전트에 의존하고 있어 오픈소스 에이전트에서의 성능 검증이 과제로 남아있다.

실무 활용

LLM 서비스 운영 시 추론 비용을 동적으로 제어하고 싶은 엔지니어에게 매우 유용하다. 특정 모델과 도메인에 최적화된 추론 제어 로직을 자동 생성할 수 있다.

수학 및 코딩 문제 해결 서비스에서 난이도별 추론 예산 자동 할당
제한된 컴퓨팅 자원 내에서 LLM의 응답 정확도를 극대화해야 하는 엣지 디바이스 환경
다양한 TTS 기법(Self-Consistency, Parallel-Probe 등) 중 최적의 조합을 자동 탐색

코드 공개 여부: 공개

코드 저장소 보기

키워드

TTS(테스트 타임 스케일링)LLM(대형 언어 모델)Agentic Discovery(에이전트 기반 탐색)Pareto Frontier(파레토 최적선)Controller Synthesis(컨트롤러 합성)

LLM을 개선하는 LLM: 테스트 타임 스케일링을 위한 에이전트 기반 탐색

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

환경 중심의 TTS 전략 탐색 프레임워크 AutoTTS 제안

연구자가 개별 TTS 규칙을 직접 설계하는 대신, 에이전트가 최적의 전략을 스스로 발견할 수 있는 탐색 환경을 구축하는 방식으로 패러다임을 전환했다.

오프라인 리플레이 환경 구축을 통한 탐색 효율 극대화

미리 수집된 추론 경로와 프로브 신호를 활용하여 추가적인 LLM 호출 없이도 새로운 전략을 저비용으로 평가할 수 있는 결정론적 환경을 구현했다.

베타 파라미터화 및 실행 추적 피드백 도입

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

수학 및 코딩 문제 해결 서비스에서 난이도별 추론 예산 자동 할당
제한된 컴퓨팅 자원 내에서 LLM의 응답 정확도를 극대화해야 하는 엣지 디바이스 환경
다양한 TTS 기법(Self-Consistency, Parallel-Probe 등) 중 최적의 조합을 자동 탐색

코드 공개 여부: 공개

코드 저장소 보기

키워드

TTS(테스트 타임 스케일링)LLM(대형 언어 모델)Agentic Discovery(에이전트 기반 탐색)Pareto Frontier(파레토 최적선)Controller Synthesis(컨트롤러 합성)

LLM을 개선하는 LLM: 테스트 타임 스케일링을 위한 에이전트 기반 탐색

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

LLM을 개선하는 LLM: 테스트 타임 스케일링을 위한 에이전트 기반 탐색

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드