핵심 요약
실제 환경에서 대형 언어 모델(LLM) 에이전트에 대한 사용자 요청은 종종 불충분하게 정의(underspecified)됩니다. 에이전트는 누락된 정보를 획득하고 정확한 후속 의사결정을 내리기 위해 사용자와 상호작용해야 합니다. 그러나 현재의 멀티턴 GRPO(Group Relative Policy Optimization) 기반 방법들은 궤적 수준(trajectory-level)의 보상 계산에 의존하는 경우가 많아, 보상 할당(credit assignment) 문제와 롤아웃 그룹 내의 불충분한 어드밴티지(advantage) 신호 문제를 야기합니다. 본 연구에서는 이러한 한계를 극복하기 위해 가치 있는 상호작용 턴을 미세한 단위(fine granularity)로 식별하여 타겟팅된 학습을 유도하는 InfoPO(Information-Driven Policy Optimization)를 소개합니다. InfoPO는 멀티턴 상호작용을 능동적 불확실성 감소(active uncertainty reduction) 과정으로 프레임화하며, 피드백이 마스킹된 반사실적(masked-feedback counterfactual) 상황과 비교했을 때 에이전트의 후속 행동 분포를 측정 가능할 정도로 변화시킨 턴에 보상을 부여하는 정보 이득(information-gain) 보상을 계산합니다. 이후 적응형 분산 게이트 융합(adaptive variance-gated fusion)을 통해 이 신호를 작업 결과와 결합함으로써, 작업 지향적인 목표 방향을 유지하면서도 정보의 중요성을 식별합니다. 의도 명확화(intent clarification), 협업 코딩(collaborative coding), 도구 증강 의사결정(tool-augmented decision making) 등 다양한 작업에서 InfoPO는 프롬프팅 및 멀티턴 강화학습(RL) 베이스라인을 일관되게 능가했습니다. 또한 사용자 시뮬레이터의 변화에도 견고함을 보였으며 환경 상호작용 작업으로도 효과적으로 일반화되었습니다. 종합적으로 InfoPO는 복잡한 에이전트-사용자 협업을 최적화하기 위한 원칙적이고 확장 가능한 메커니즘을 제공합니다.
핵심 기여
정보 이득 기반 보상 메커니즘 설계
피드백 유무에 따른 행동 분포 변화를 측정하는 반사실적 분석을 통해 각 상호작용 턴의 가치를 정밀하게 평가하는 정보 이득 보상을 도입했습니다.
적응형 분산 게이트 융합 기술
정보 획득의 중요성과 최종 작업 성공률 사이의 균형을 맞추기 위해 분산 기반의 게이팅 메커니즘을 사용하여 두 보상 신호를 효과적으로 결합했습니다.
멀티턴 에이전트의 보상 할당 문제 해결
기존의 궤적 단위 보상 방식에서 벗어나 턴 단위의 세밀한 보상 할당을 가능하게 하여 정책 학습의 효율성과 정확도를 높였습니다.
방법론
멀티턴 상호작용을 능동적 불확실성 감소 과정으로 정의하고, 피드백 유무에 따른 행동 분포 변화를 KL 발산으로 측정하여 정보 이득 보상을 산출한다. 적응형 분산 게이트 융합 기술을 적용해 작업 성공 보상과 정보 보상을 동적으로 결합한다.
주요 결과
의도 명확화, 협업 코딩, 도구 증강 의사결정 작업에서 기존 프롬프팅 및 멀티턴 강화학습 베이스라인을 일관되게 능가했다. 사용자 시뮬레이터의 분포 변화에도 견고한 성능을 유지하며 환경 상호작용 작업으로의 일반화 가능성을 입증했다.
시사점
사용자의 불충분한 지시를 스스로 파악하고 질문을 던지는 능동형 에이전트 설계에 직접적으로 활용 가능하다. 복잡한 협업 워크플로우에서 에이전트의 의사결정 정확도를 높이고 불필요한 행동을 줄이는 효과를 제공한다.
키워드
섹션별 상세
정보 이득 기반 보상 메커니즘 설계
적응형 분산 게이트 융합 기술
멀티턴 에이전트의 보상 할당 문제 해결
AI 요약 · 북마크 · 개인 피드 설정 — 무료