CoVe: 제약 조건 가이드 검증을 통한 대화형 도구 사용 에이전트 학습

핵심 요약

다회차 대화형 도구 사용(multi-turn interactive tool-use) 에이전트를 개발하는 것은 실제 사용자의 요구사항이 복잡하고 모호한 반면, 에이전트는 이를 충족하기 위해 결정론적인 행동을 수행해야 하기 때문에 매우 어렵습니다. 이러한 격차를 해소하기 위해, 데이터의 복잡성과 정확성을 모두 보장하면서 대화형 도구 사용 에이전트를 학습시키기 위해 설계된 사후 학습 데이터 합성(post-training data synthesis) 프레임워크인 CoVe(Constraint-Verification)를 소개합니다. CoVe는 명시적인 작업 제약 조건(task constraints)을 정의하는 것으로 시작하며, 이는 복잡한 궤적(trajectory) 생성을 가이드하고 궤적 품질을 평가하기 위한 결정론적 검증기(deterministic verifiers) 역할을 하는 이중적인 기능을 수행합니다. 이를 통해 지도 미세 조정(supervised fine-tuning, SFT)을 위한 고품질 학습 궤적을 생성하고 강화학습(reinforcement learning, RL)을 위한 정확한 보상 신호를 도출할 수 있습니다. 까다로운 τ²-bench 벤치마크에서의 평가는 이 프레임워크의 효과를 입증합니다. 특히, 컴팩트한 CoVe-4B 모델은 항공(Airline) 및 소매(Retail) 도메인에서 각각 43.0%와 59.4%의 성공률을 기록했으며, 전체적인 성능은 비슷한 규모의 강력한 베이스라인들을 크게 능가하고 최대 17배 큰 모델들과도 대등한 수준을 유지합니다. 이러한 결과는 CoVe가 최첨단 대화형 도구 사용 에이전트를 위한 학습 데이터를 합성하는 효과적이고 효율적인 경로를 제공함을 나타냅니다. 향후 연구를 지원하기 위해 코드, 학습된 모델, 그리고 학습에 사용된 12,000개의 고품질 궤적 전체 세트를 오픈 소스로 공개합니다.

난이도중급

핵심 기여

CoVe 데이터 합성 프레임워크 제안

명시적 제약 조건을 활용해 데이터 생성과 검증을 동시에 수행하는 사후 학습 데이터 합성 방법론을 구축하여 데이터의 복잡성과 정확성을 확보했다.

제약 조건 기반의 자동 검증 시스템

정의된 작업 제약 조건을 결정론적 검증기로 활용하여 SFT를 위한 고품질 데이터 필터링과 RL을 위한 정밀한 보상 신호 생성을 가능하게 했다.

효율적인 소형 모델 CoVe-4B 개발

40억 개의 파라미터를 가진 소형 모델임에도 불구하고, 합성된 데이터를 통해 대규모 모델에 필적하는 대화형 도구 사용 능력을 확보했다.

방법론

CoVe 프레임워크는 먼저 작업의 성공 여부를 판단할 수 있는 명시적인 제약 조건을 정의한다. 이 제약 조건들을 프롬프트에 포함하여 LLM이 복잡한 상호작용 궤적을 생성하도록 유도하며, 생성된 결과물은 동일한 제약 조건을 기반으로 한 자동 검증기를 통해 품질을 평가한다.

주요 결과

τ²-bench 벤치마크에서 CoVe-4B 모델은 Airline 도메인 43.0%, Retail 도메인 59.4%의 성공률을 기록했다. 이는 유사 규모의 모델들을 압도하는 수치이며, 파라미터 수가 17배 더 많은 대형 모델들과 비교해도 경쟁력 있는 성능을 보여주었다.

시사점

데이터 합성 과정에서 제약 조건을 명시적으로 활용함으로써 인간의 개입 없이도 고품질의 에이전트 학습 데이터를 대량으로 확보할 수 있음을 입증한다. 특히 특정 도메인에 특화된 소형 에이전트를 구축하려는 실무자들에게 효율적인 학습 경로를 제시한다.

키워드

대화형 도구 사용(Interactive Tool-Use)데이터 합성(Data Synthesis)제약 조건 가이드 검증(Constraint-Guided Verification)지도 미세 조정(SFT)강화학습(RL)

섹션별 상세

CoVe 데이터 합성 프레임워크 제안

명시적 제약 조건을 활용해 데이터 생성과 검증을 동시에 수행하는 사후 학습 데이터 합성 방법론을 구축하여 데이터의 복잡성과 정확성을 확보했다.

제약 조건 기반의 자동 검증 시스템

정의된 작업 제약 조건을 결정론적 검증기로 활용하여 SFT를 위한 고품질 데이터 필터링과 RL을 위한 정밀한 보상 신호 생성을 가능하게 했다.

효율적인 소형 모델 CoVe-4B 개발

40억 개의 파라미터를 가진 소형 모델임에도 불구하고, 합성된 데이터를 통해 대규모 모델에 필적하는 대화형 도구 사용 능력을 확보했다.

CoVe: 제약 조건 가이드 검증을 통한 대화형 도구 사용 에이전트 학습

핵심 요약

핵심 기여

방법론

주요 결과

시사점

키워드

섹션별 상세

CoVe 데이터 합성 프레임워크 제안

제약 조건 기반의 자동 검증 시스템

효율적인 소형 모델 CoVe-4B 개발

관련 피드

관련 토론

댓글

관련 피드

관련 토론

댓글