TL;DR
대형 언어 모델 기반의 에이전트가 도구 호출 여부를 미세하게 조정하지 못하는 현상을 분석한다. WHEN2TOOL은 18개의 환경에서 도구 필요성의 결정 경계와 난이도를 제시하고, Prompt-only와 Reason-then-Act의 한계를 통해 어떤 상황에서 도구 호출이 불필요한지 파악한다. 숨겨진 표현(representation)에서 도구 필요성 신호가 선형적으로 해독 가능하다는 사실을 밝히고, 이를 활용한 PROBE&PREFILL이 도구 호출을 실질적으로 감소시키는 방법을 제시한다.
왜 중요한가
대형 언어 모델 기반의 에이전트가 도구 호출 여부를 미세하게 조정하지 못하는 현상을 분석한다. WHEN2TOOL은 18개의 환경에서 도구 필요성의 결정 경계와 난이도를 제시하고, Prompt-only와 Reason-then-Act의 한계를 통해 어떤 상황에서 도구 호출이 불필요한지 파악한다. 숨겨진 표현(representation)에서 도구 필요성 신호가 선형적으로 해독 가능하다는 사실을 밝히고, 이를 활용한 PROBE&PREFILL이 도구 호출을 실질적으로 감소시키는 방법을 제시한다.
핵심 기여
Benchmark WHEN2TOOL 설계 및 공개
15개의 단일 홉 환경과 3개의 멀티 홁 환경으로 구성된 WHEN2TOOL은 도구 필요성의 판단을 평가한다. 세 가지 도메인(계산 규모, 지식 경계, 실행 추적)과 Easy/Medium/Hard의 난이도 구간으로 구성되며, 학습 없이도 실행이 가능하도록 1,080개의 훈련 샘플과 2,700개의 테스트 샘플을 제공한다. 제로 API 비용 환경에서 도구 호출 의사결정의 정확도와 도구 사용 수를 평가한다.
Prompt-only 및 Reason-then-Act의 한계 분석
프롬프트 엔지니어링과 생각-먼저-행동(RA) 방식이 도구 호출을 부분적으로만 제어하며, 특히 Hard 태스크에서 정확도 손실이 커진다. 또한 Prompt-only는 필요할 때도 도구를 사용하도록 만들어 도구 과다 호출을 유발하고, Reason-then-Act는 생성 비용이 증가하며 일부 모델에서 의도대로 도구를 호출하지 못하는 문제를 보인다.
PROBE&PREFILL: 은닉 상태 신호를 이용한 경량 제어
은닉 상태를 선형 프로브로 예측하고, 그 결과에 따라 모델의 출력 앞부분에 steering 문장을 프리필링하는 방법이다. 프로브 임계값 τ를 조정해 정확도-도구 호출 간의 트레이드오프를 매끄럽게 조정할 수 있다. 모든 모델에서 PROMPT-ONLY·Reason-then-Act 대비 도구 호출을 감소시키며, Hard prefill를 통해 Llama에서의 제어를 강하게 유지한다. 또한 실시간 추론 오버헤드는 <1ms로 나타난다.
핵심 아이디어 이해하기
WHEN2TOOL은 도구 필요성 판단이 은닉 상태에서 선형적으로 디코딩 가능하다는 발견에서 출발한다. Probe은 이 신호를 읽어 도구 필요 여부를 예측하고, Prefill은 그 예측에 따라 모델의 응답을 미리 정렬하는 방식으로 동작한다. Prompt-only와 Reason-then-Act의 성능 한계는 모델이 내부적으로 필요 정보를 알고 있음에도 텍스트 생성 과정에서 이를 충분히 활용하지 못하는 데서 기인하며, 이 문제는 선형 프로브와 간단한 프리필링으로 개선 가능하다. 실험적으로 Probe&Prefill은 Easy/Medium/Hard 전 영역에서 Baseline 대비 더 나은 정확도-도구 호출 트레이드오프를 제공하고, multi-hop 환경에서도 75% 이상의 도구 호출 감소와 높은 정확도를 달성한다.
방법론
- Step 1: Last hidden state를 추출한다. Prompt 인코딩 단계에서 마지막 토큰 위치의 은닉 상태를 얻는다.
- Step 2: Linear Probe를 적용해 도구 필요성 확률 p를 계산한다. p가 임계값 τ 이상이면 도구 필요로 판단한다.
- Step 3: Prefill을 삽입한다. p < τ 이면 'I can solve this directly without using a tool.'를, p ≥ τ 이면 'I need to use a tool for this question.'를 출력 앞에 추가하고 생성한다.
- Threshold τ는 정확도-도구 호출 간의 거래를 미세하게 조정하는 매개변수로 작용한다. Soft prefill과 Hard prefill의 차이를 실험한다.
- Inference 오버헤드는 은닉 상태 추출 및 선형 프로브 계산으로 한정되며, 전체 파이프라인에 추가적인 forward pass를 필요로 하지 않는다. 평균적으로 전체 오버헤드는 <1ms이다.
관련 Figure

해당 도식은 WHEN2TOOL의 구조와 Category A/B/C, Easy/Medium/Hard 난이도 간 관계를 시각적으로 보여주며, 본 연구의 설계 의도를 직관적으로 전달한다.
WHEN2TOOL 개요 및 세 가지 도메인과 18환경의 구성, Part 1의 아키텍처 다이어그램

Step 1-3의 프로세스 흐름과 τ에 따른 trade-off를 시각화하여 방법론의 구현 의도를 보강한다.
PROBE&PREFILL 작동 원리 및 트레이드오프 다이어그램
주요 결과
주요 벤치마크: Prompt-only 및 Reason-then-Act 대비 PROBE&PREFILL은 모든 모델에서 도구 호출을 감소시키면서도 테스트 세트에서 전체 정확도를 유지하거나 향상시킨다. Qwen 계열에서 τ=0.5일 때 Easy/Medium에서 Acc 88.3–89.0, Avg Tool Calls 2128–1309 범위의 성능을 보이며, Hard에서의 손실은 최소화된다. Multi-hop에서는 Qwen3-4B에서 도구 호출을 75% 줄이면서도 Acc 85.3%를 달성하고, Llama 계열은 Reason-then-Act에서 도구 호출이 급감하는 경향을 보이나 정확도 저하가 크게 나타난다. PROBE&PREFILL은 Easy에서 −1.6, Hard에서 −3.4의 평균 Acc/∆TC 손실비로 가장 낮은 손실비를 보이며, 데이터 효율성도 양호하다. 또한 In-distribution 및 Out-of-distribution 일반화에서도 안정적으로 작동한다.
관련 Figure

Baselines의 도구 호출 제어 한계와 난이도별 성능 변화를 시각화하여 PROBE&PREFILL의 필요성을 보강한다.
Prompt-only 및 Reason-then-Act 벤치마크 Baseline 비교 그래프

multi-hop 환경에서 PROBE&PREFILL의 도구 호출 감소율과 정확도 사이의 관계를 보여준다.
멀티홉 환경의 정확도 vs 도구 호출 수 그래프

WHEN2TOOL의 프로브 일반화 능력을 외부 벤치마크에도 적용한 결과를 제시한다.
Search-o1 일반화(Generalization) 결과 그래프
기술 상세
아키텍처: WHEN2TOOL은 18개 환경(15 single-hop, 3 multi-hop)으로 구성되며, 각 환경은 three categories of tool necessity(A: Can I compute this? / B: Do I know this? / C: Can I execute this reliably?)와 Easy/Medium/Hard의 난이도를 가진다. 실험 설정은 Prompt-only 및 Reason-then-Act의 성능 비교를 포함하며, 각 모델(Qwen3-1.7B, Qwen3-4B-Instruct, Qwen3-14B, Qwen3-32B, Llama-3.1-8B, Llama-3.3-70B)의 3회 실행 평균으로 보고한다. Hidden state 분석은 마지막 토큰의 은닉 상태 배열을 수집하고, 이를 L2-정규화된 로지스틱 회귀에 입력해 도구 필요성을 예측한다. AUROC는 0.89–0.96으로 모델 규모에 관계없이 일관된 신호를 확인한다. PROBE&PREFILL은 Probe의 예측 확률 p를 바탕으로 임계값 τ를 조정해 tool-call budget을 제어한다. Soft prefill은 자연어 Steering 문장을 삽입하고, Hard prefill은 출력 형식을 강제한다. Inference overhead은 <1ms로 측정되며, 전체 파이프라인에 대한 추가 forward pass 없이 Hidden state 추출과 프로브 계산만 필요하다. Multi-hop 실험에서 AUROC은 0.804–0.966 범위이며, PROBE&PREFILL은 3-hop 태스크에서도 강한 성능을 보인다. SFT와의 비교에서 PROBE&PREFILL은 학습 없이도 TC 감소를 안정적으로 달성하며, SFT는 정확도 향상이 있어도 도구 호출 감소를 일관되게 달성하지 못한다.
실무 활용
훈련 없이도 선형 프로브를 활용해 도구 필요성 신호를 읽고 프리필링으로 도구 호출 여부를 제어할 수 있다. 서버 인퍼런스에 부가적인 학습 없이 적용 가능하며, 다양한 모델에 대한 일반화 가능성이 제시된다.
- 에이전트 기반 QA 시스템에서 API 호출 비용을 실시간으로 줄이고, 정확도 손실을 최소화하기 위한 도구 호출 예산 관리
- 대규모 다중 홉 질의에 대해 불필요한 도구 호출을 줄이고 응답 속도 향상
- 실서비스에서 프롬프트 엔지니어링의 한계를 보완하고, 모델-사이드 의사결정의 신뢰성 증가
- Search-o1 계열과 같은 오픈 도메인 검색 파이프라인에서 API 호출 수를 감소시키고 자원 사용 최적화
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.