핵심 요약
실제 사용자 요구사항은 모호하고 복잡하지만 AI 에이전트는 정확한 도구 호출을 수행해야 한다. CoVe는 명확한 제약 조건을 먼저 설정하고 이를 모호하게 변환해 데이터를 생성함으로써, 에이전트가 복잡한 대화 속에서도 정확하게 도구를 사용하도록 학습시키는 효율적인 경로를 제시한다.
왜 중요한가
실제 사용자 요구사항은 모호하고 복잡하지만 AI 에이전트는 정확한 도구 호출을 수행해야 한다. CoVe는 명확한 제약 조건을 먼저 설정하고 이를 모호하게 변환해 데이터를 생성함으로써, 에이전트가 복잡한 대화 속에서도 정확하게 도구를 사용하도록 학습시키는 효율적인 경로를 제시한다.
핵심 기여
CoVe 프레임워크 제안
명시적 제약 조건을 기반으로 복잡한 멀티턴 대화 데이터를 합성하고 결정론적 검증을 수행하는 사후 학습 프레임워크이다.
제약 조건 퍼지화 전략 도입
구체적인 ID 대신 모호한 설명을 사용하여 실제 사용자의 불분명한 요청 상황을 시뮬레이션하고 에이전트의 추론 및 정보 동기화 능력을 강화한다.
결정론적 검증 메커니즘 구축
LLM 기반 평가 대신 규칙 기반 매칭을 통해 도구 실행 결과가 초기 제약 조건을 충족했는지 정확하게 판별하여 데이터 품질을 보장한다.
CoVe-4B 모델의 우수한 효율성 입증
4B 규모의 소형 모델임에도 불구하고 τ²-bench 벤치마크에서 17배 큰 모델들과 대등하거나 능가하는 성능을 기록했다.
핵심 아이디어 이해하기
기존의 도구 사용 에이전트는 단발성 명령에는 강하지만, 사용자와 여러 번 대화하며 의도를 파악해야 하는 복잡한 상황에서는 취약하다. 이는 학습 데이터가 단순하거나, 데이터 생성 시 LLM이 스스로를 검증하는 과정에서 발생하는 오류(Hallucination) 때문이다.
CoVe는 이 문제를 해결하기 위해 '정답지(제약 조건)'를 먼저 만들고 문제를 역으로 생성한다. 예를 들어 '특정 주문 취소'라는 명확한 목표를 정한 뒤, 이를 '파란 셔츠가 포함된 주문을 취소하고 싶어요'와 같이 모호한 표현으로 바꾼다. 에이전트는 이 모호함을 풀기 위해 질문을 던지고 도구를 호출해야 한다.
마지막 검증 단계에서는 LLM의 주관적 판단이 아니라, 실제 데이터베이스 상에서 해당 주문이 취소되었는지 규칙 기반으로 확인한다. 이 과정을 통해 에이전트는 복잡한 상호작용 속에서도 정확한 실행 결과를 도출하는 법을 Gradient Descent를 통해 학습하게 된다.
방법론
CoVe 파이프라인은 제약 조건 샘플링, 퍼지화, 멀티턴 상호작용, 검증의 4단계로 구성된다. 먼저 샌드박스 데이터베이스에서 실행 가능한 결정론적 제약 조건 집합 C를 추출한다. [DB 레코드 입력 → 무작위 샘플링 → 제약 조건 C 출력 → 작업의 실행 가능성 보장]
추출된 제약 조건의 고유 식별자(ID)를 속성이나 문맥 기반의 모호한 설명으로 변환하는 Constraint Fuzzification을 수행한다. [정확한 ID 입력 → 도메인 정책 기반 변환 → 모호한 설명 F 출력 → 사용자 시뮬레이터의 입력값 생성]
User Simulator LLM이 모호한 설명 F를 바탕으로 에이전트와 대화를 나누며 요구사항을 단계적으로 드러낸다. 대화가 끝나면 규칙 기반 검증기 V(τ, C)가 에이전트의 도구 호출 기록을 초기 제약 조건 C와 대조하여 성공 여부를 판별한다. [도구 호출 기록 입력 → 규칙 기반 매칭 → 성공 점수 S 출력 → 데이터 필터링 및 보상 신호로 활용]
주요 결과
τ²-bench 벤치마크의 Airline 및 Retail 도메인에서 평가를 진행했다. CoVe-4B 모델은 평균 pass1 점수 51.2%를 기록하며, 동일 규모의 Qwen3-4B-Instruct(32.6%) 대비 18.6%p 향상된 성능을 보였다.
특히 Retail 도메인에서는 59.4%의 성공률을 기록하여, 70B 규모의 xLAM-2-70b-fc-r(51.5%)이나 GPT-4o(55.8%)를 능가하는 성과를 거두었다. 이는 고품질의 합성 데이터가 모델 크기의 한계를 극복할 수 있음을 시사한다.
Ablation Study 결과, 12K개의 고품질 데이터를 사용한 CoVe-12K가 90K개의 노이즈 섞인 데이터를 사용한 Simia-90K보다 더 높은 성능(44.7% vs 44.3%)을 기록하여 데이터 양보다 질과 검증의 중요성을 증명했다.
기술 상세
CoVe는 에이전트 학습을 위해 SFT와 RL을 모두 지원한다. SFT 단계에서는 교사 모델이 생성한 궤적 중 검증을 통과한 데이터만 선별하여 학생 모델을 미세 조정한다. RL 단계에서는 결정론적 검증기가 제공하는 정확한 보상 신호를 바탕으로 GRPO(Group Relative Policy Optimization) 알고리즘을 사용하여 정책을 업데이트한다.
Constraint Fuzzification은 User ID, Order ID, Item ID 등 5가지 핵심 요소에 대해 도메인별 정책을 적용한다. 예를 들어 Order ID는 해당 주문에 포함된 상품들의 조합으로 대체되며, 이는 데이터베이스 내에서 논리적 유일성(Logical Uniqueness)을 유지하도록 설계되어 에이전트가 반드시 쿼리를 통해 확인하도록 강제한다.
검증 프로세스는 단순한 텍스트 매칭이 아니라 상태 변화를 추적한다. 특정 주문 취소 제약 조건의 경우, 직접적인 취소 API 호출뿐만 아니라 해당 주문의 모든 품목을 개별적으로 취소하여 결과적으로 주문이 취소된 상태에 도달하면 성공으로 간주한다. 또한 불필요한 도구 호출에 대해서는 페널티를 부여하여 효율적인 실행 경로를 학습시킨다.
한계점
현재 순차적인 SFT+RL 파이프라인이 순수 SFT보다 낮은 성능을 보이는데, 이는 온라인 상호작용에 사용된 오픈소스 시뮬레이터의 성능 한계로 인한 환경 병목 현상 때문이다. 또한 현재는 항공 및 소매 도메인에 국한되어 있어 타 도메인으로의 일반화 검증이 필요하다.
실무 활용
고객 서비스, 여행 예약, 전자상거래 관리 등 복잡한 대화와 도구 실행이 결합된 에이전트 시스템 구축에 즉시 적용 가능하다.
- 전자상거래 플랫폼의 반품/교환 자동화 에이전트
- 복잡한 제약 조건을 고려해야 하는 항공 및 호텔 예약 시스템
- 기업 내부 데이터베이스 쿼리 및 수정을 수행하는 대화형 비서
- 에이전트 성능 평가를 위한 고품질 합성 데이터셋 생성 도구
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.