SKILL0: 스킬 내재화를 위한 인컨텍스트 에이전트 강화학습

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존 LLM 에이전트는 추론 시점에 외부 스킬을 검색해 활용하지만, 이는 검색 노이즈와 높은 토큰 비용 문제를 야기한다. SKILL0는 이러한 스킬을 모델 매개변수에 직접 내재화하여 외부 검색 없이 제로샷으로 동작하게 만드는 인컨텍스트 강화학습 프레임워크이다. 학습 과정에서 스킬 컨텍스트를 점진적으로 제거하는 동적 커리큘럼을 적용해 모델이 도구 호출과 다단계 작업 완료 능력을 스스로 습득하도록 유도한다. 실험 결과 ALFWorld에서 9.7%, Search-QA에서 6.6%의 성능 향상을 기록했으며, 단계당 토큰 사용량을 0.5k 미만으로 유지하는 효율성을 입증했다.

배경

강화학습(RL)의 기본 개념, LLM 에이전트 및 도구 사용(Tool Use) 아키텍처, 인컨텍스트 학습(In-Context Learning) 원리

대상 독자

LLM 에이전트의 추론 효율성과 성능을 개선하고자 하는 ML 엔지니어 및 연구자

의미 / 영향

이 연구는 에이전트가 외부 지식에 의존하는 대신 스스로 스킬을 학습하게 함으로써 추론 비용을 획기적으로 낮출 수 있는 방향을 제시한다. 특히 실시간 응답이 중요한 복잡한 다단계 작업 환경에서 LLM의 실용성을 크게 높일 것으로 기대된다.

섹션별 상세

추론 시점의 스킬 증강 방식은 검색 노이즈로 인한 무관한 가이드 유입과 과도한 토큰 소모라는 근본적인 한계를 지닌다. 모델이 지식을 실제로 습득하지 못하고 단순히 따르기만 하는 구조적 문제를 해결하기 위해 스킬 내재화 개념이 도입됐다.

SKILL0는 학습 시점에 전체 스킬 컨텍스트를 제공한 뒤 이를 점진적으로 철회하는 훈련 커리큘럼을 제안한다. 오프라인에서 카테고리별로 그룹화된 스킬과 상호작용 이력을 압축된 시각적 컨텍스트로 변환하여 모델에게 도구 사용법을 교육한다.

동적 커리큘럼은 각 스킬 파일의 온폴리시 도움 정도를 평가하여 유효한 스킬만 선별적으로 유지한다. 선형적으로 감소하는 예산 범위 내에서 모델이 외부 도움 없이도 스스로 판단하고 행동할 수 있는 제로샷 환경에 도달하도록 설계됐다.

ALFWorld와 Search-QA 벤치마크에서 기존 강화학습 베이스라인 대비 각각 9.7%와 6.6%의 유의미한 성능 향상을 달성했다. 특히 추론 시 단계당 토큰 사용량을 500개 미만으로 획기적으로 줄여 운영 효율성을 극대화했다.

실무 Takeaway

반복적인 도구 사용이 필요한 에이전트 시스템에서 SKILL0의 점진적 컨텍스트 철회 기법을 적용하면 외부 검색 의존도를 낮추고 제로샷 성능을 높일 수 있다.
추론 시 토큰 오버헤드를 줄이기 위해 학습 단계에서 스킬 지식을 모델 파라미터에 내재화하는 전략이 대규모 에이전트 배포 시 비용 절감의 핵심이 된다.
동적 커리큘럼을 통해 모델의 현재 정책에 실질적으로 도움이 되는 데이터만 선별 학습함으로써 학습 효율과 최종 모델의 정확도를 동시에 확보할 수 있다.

언급된 리소스

논문SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization (arXiv)