핵심 요약
LLM이 도구를 언제, 어떻게 사용할지 스스로 학습하는 Toolformer와 수천 개의 API 중 최적의 도구를 선택하는 Gorilla를 통해 에이전트의 신뢰성을 높이는 방법론을 제시합니다.
배경
LLM의 지식 컷오프와 연산 능력 한계를 극복하기 위해 외부 도구를 사용하는 'Tool Use' 기술이 에이전트 AI의 핵심으로 부상하고 있습니다.
대상 독자
AI 에이전트 개발자, LLM 연구자, API 연동 시스템 설계자
의미 / 영향
LLM 에이전트가 폐쇄적인 지식 체계를 벗어나 실시간 데이터와 외부 연산 도구를 결합하는 표준 방법론을 제시한다. 이는 수천 개의 API가 얽힌 엔터프라이즈 환경에서 Hallucination을 최소화하고 신뢰할 수 있는 자율형 AI 비서를 구축하는 데 직접적으로 기여할 것이다.
챕터별 상세
Tool Use의 기초와 에이전트의 신뢰성
LLM이 외부 도구를 쓰기 위해서는 API 명세에 맞는 정확한 형식을 생성해야 하며, 이를 Structured Output이라고 한다.
Toolformer: 스스로 도구 사용법을 배우는 언어 모델
LLM의 고질적인 문제인 지식 컷오프와 연산 오류를 외부 API 호출로 해결하려는 시도이다.
Toolformer의 학습 프로세스와 유용성 필터링
Cross-entropy loss는 모델이 다음 단어를 얼마나 잘 예측하는지 나타내는 지표로, 값이 낮을수록 예측 정확도가 높음을 의미한다.
L_i(z) = sum_{j=i}^n w_{j-i} * log P_M(x_j | z, x_{1:j-1})
// z: API call + response
// L_i(z): API 호출이 포함된 경우의 loss
// L_i(ε): API 호출이 없는 경우의 loss
// 유용성 판단: min(L_i(ε), L_i(e(c_i, ε))) - L_i(z) > τ_fToolformer에서 특정 위치의 API 호출이 유용한지 판단하기 위한 Loss 비교 수식
Toolformer 실험 결과 및 Scaling Laws
Scaling Law는 모델의 파라미터 수, 데이터 양 등이 증가함에 따라 성능이 지수적으로 향상되는 법칙을 말한다.
Gorilla: 수천 개의 API를 다루는 검색 인지 모델
Open-world Selection은 제한된 도구 세트가 아닌, 방대한 외부 API 생태계에서 적절한 도구를 고르는 문제를 의미한다.
Gorilla의 방법론: Retrieval-aware Fine-tuning
Self-instruct는 LLM을 활용하여 학습용 데이터를 자동으로 생성하는 기법이다.
{
"domain": "framework",
"functionality": "api_name",
"api_call": "api_arguments",
"environment": "requirements",
"example_code": "performance",
"description": "..."
}Gorilla의 APIBench 구축을 위해 각 API 정보를 구조화한 JSON 데이터 포맷
Gorilla 실험 결과 및 AST 평가
Constraint는 '파라미터 수 10M 이하', '정확도 70% 이상'과 같이 사용자가 요구하는 구체적인 성능 제한 조건을 의미한다.
실무 Takeaway
- Toolformer는 API 호출이 다음 토큰 예측의 Loss를 줄이는지 판단하여 도구 사용의 유용성을 스스로 학습함으로써 레이블링 비용을 절감한다
- Gorilla는 Retrieval-aware Fine-tuning을 통해 모델이 외부 API 문서를 실시간으로 참조하게 하여 최신 API 변경에 유연하게 대응한다
- 에이전트의 신뢰성은 단순히 API를 호출하는 것을 넘어 정확한 문법(Syntax)과 적절한 시점(Utility)을 판단하는 능력에 달려 있다
- 모델 규모가 일정 수준(약 755M) 이상일 때 외부 도구의 응답을 문맥에 통합하는 능력이 급격히 향상되는 Scaling Law가 존재한다
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.