핵심 요약
사용자의 모호한 요청을 해결하기 위해 에이전트가 스스로 유용한 질문을 던지는 법을 배우게 하는 강화학습 방법론이다. 기존의 결과 중심 보상이 가진 한계를 극복하여 학습 효율을 높이고 더 똑똑한 대화형 AI를 만드는 데 기여한다.
왜 중요한가
사용자의 모호한 요청을 해결하기 위해 에이전트가 스스로 유용한 질문을 던지는 법을 배우게 하는 강화학습 방법론이다. 기존의 결과 중심 보상이 가진 한계를 극복하여 학습 효율을 높이고 더 똑똑한 대화형 AI를 만드는 데 기여한다.
핵심 기여
InfoPO 프레임워크 제안
다회차 상호작용을 능동적인 불확실성 감소 과정으로 정의하고, 턴 단위의 정보 이득 보상을 활용하는 새로운 정책 최적화 기법을 제시했다.
반사실적 정보 이득 보상 설계
특정 피드백이 있을 때와 마스킹되었을 때의 행동 분포 차이를 비교하여, 에이전트의 의사결정에 실질적으로 기여한 정보에만 보상을 주는 메커니즘을 구현했다.
적응형 분산 게이트 융합
그룹 내 결과 보상의 변동성이 낮아 학습 신호가 부족할 때 정보 이득 보상의 비중을 자동으로 높여 학습 정체를 방지하는 게이팅 전략을 도입했다.
이론적 및 실험적 검증
제안한 보상이 조건부 상호 정보량과 일치함을 수학적으로 증명했으며, 3종의 벤치마크에서 기존 GRPO 대비 14~16%의 성능 향상을 입증했다.
핵심 아이디어 이해하기
강화학습의 핵심은 행동에 대한 보상을 주는 것인데, LLM 에이전트가 10번의 대화 끝에 과업을 성공했을 때 어떤 질문이 결정적이었는지 알기 어렵다. 이는 Gradient Descent가 어떤 가중치를 수정해야 할지 모르는 Credit Assignment 문제로 이어진다. 기존 방식은 전체 성공 여부만 따지기 때문에 중간 단계의 유익한 질문들이 무시되기 쉽다.
InfoPO는 '반사실적 추론'을 통해 이 문제를 해결한다. 에이전트가 사용자의 답변을 들은 후 다음 행동을 결정할 때, '만약 그 답변을 듣지 못했다면 내 행동이 얼마나 방황했을까?'를 계산한다. 답변 덕분에 에이전트가 모호함을 해소하고 확신을 가지고 다음 단계로 나아갔다면, 그 답변을 이끌어낸 질문에 높은 점수를 준다. 이는 Softmax를 통해 나오는 확률 분포의 변화량(KL Divergence)으로 측정된다.
결과적으로 에이전트는 단순히 말을 많이 하는 것이 아니라, 사용자의 의도를 가장 빠르게 파악할 수 있는 '고효율 질문'을 먼저 던지는 전략을 학습하게 된다. 이는 학습 초기 과업 성공률이 0%인 상황에서도 에이전트가 '정보를 얻는 법'부터 배우기 시작하여 전체 학습 속도와 최종 성능을 모두 끌어올리는 결과를 낳는다.
방법론
InfoPO는 Dec-POMDP 모델을 기반으로 하며, GRPO(Group Relative Policy Optimization) 아키텍처 위에 두 가지 핵심 모듈을 추가했다. 첫 번째는 턴 단위 반사실적 정보 이득(Turn-level Counterfactual Info-Gain) 계산이다. 각 턴 t에서 에이전트가 받은 관측값 가 있을 때와 없을 때()의 다음 행동 에 대한 로그 확률 차이를 계산한다. [현재 상태 와 관측값 를 입력으로] → [다음 행동 시퀀스의 로그 확률을 계산하고 관측값이 마스킹된 경우의 로그 확률을 빼는 연산을 수행해] → [정보 이득 보상 를 얻고] → [이 값이 클수록 해당 턴의 상호작용이 불확실성을 크게 해소했음을 의미한다.]
두 번째는 적응형 분산 게이트 융합(Adaptive Variance-Gated Fusion)이다. 과업 성공 여부에 따른 외부 보상 와 정보 이득 보상을 동적으로 결합한다. [그룹 내 외부 보상의 표준편차 를 입력으로] → [시그모이드 형태의 게이트 함수 연산을 수행해] → [0에서 1 사이의 가중치 값을 얻고] → [보상의 분산이 작아 학습 신호가 희소할 때는 정보 이득에 집중하고, 결과가 차별화되기 시작하면 과업 성공 보상에 더 큰 비중을 두도록 조절한다.]
최종적으로 통합된 Advantage 신호를 사용하여 PPO 알고리즘의 Clipped Objective를 최적화한다. 이때 Teacher Forcing을 사용하여 동일한 토큰 시퀀스에 대해 확률값만 비교함으로써 계산 효율성을 확보하고, 자동 회귀적 생성의 무작위 변수를 제거하여 인과 관계를 명확히 분리했다.
주요 결과
UserGym, ColBench, -Bench 등 3가지 주요 벤치마크에서 InfoPO는 기존 GRPO 기반 방법론보다 평균 14~16% 높은 성공률을 기록했다. 특히 Qwen2.5-7B 모델을 사용했을 때 UserGym의 8개 환경 중 7개에서 최고 성능을 보였으며, 복잡한 협업 코딩 과업인 ColBench에서는 GPT-4.1의 성능을 상회하는 결과(Pass 0.534 vs 0.457)를 나타냈다.
학습 곡선 분석 결과, InfoPO는 학습 초기 단계에서 외부 보상이 전혀 발생하지 않는 구간(Zero outcome variance)에서도 정보 이득 신호를 통해 정책 개선을 시작하는 것으로 확인됐다. 대화 로그 분석에서는 에이전트가 초기에 질문을 집중적으로 던져 불확실성을 해소한 뒤, 후반부에는 효율적으로 과업을 실행하는 'Explore-then-consolidate' 패턴이 자연스럽게 습득됨이 관찰됐다.
또한, 학습 시 사용한 사용자 시뮬레이터(GPT-4o-mini)와 다른 특성을 가진 사용자(GPT-4.1 등)를 대상으로 한 테스트에서도 성능 저하 없이 강건한 일반화 능력을 보였다. 이는 InfoPO가 특정 대화 패턴을 외우는 것이 아니라, 정보 획득이라는 근본적인 상호작용 원리를 학습했음을 시사한다.
기술 상세
InfoPO는 다회차 에이전트 학습의 고질적 문제인 '긴 호라이즌 기여도 할당(Long-horizon credit assignment)'을 정보 이론적 관점에서 해결한다. 연구진은 턴 단위 정보 이득 보상의 기대값이 조건부 상호 정보량 와 동일하며, 이들의 누적 합이 피드백에서 행동으로 흐르는 Directed Information과 일치함을 수학적으로 증명했다. 이는 정보 이득을 극대화하는 것이 과업 성공을 위한 필수 조건임을 이론적으로 뒷받침한다.
아키텍처 측면에서는 별도의 Critic 모델 없이 그룹 내 상대적 비교를 수행하는 GRPO 구조를 채택하여 메모리 효율성을 높였다. 반사실적 비교 시 발생하는 추가 연산 비용을 줄이기 위해, 동일한 행동 토큰에 대해 Teacher Forcing 방식으로 확률만 계산하는 병렬화된 Forward Pass 설계를 적용했다. 이를 통해 전체 학습 시간 증가를 2배 미만(평균 1.63배)으로 억제하면서도 정밀한 턴 단위 감독 신호를 생성할 수 있게 했다.
한계점
현재 InfoPO는 텍스트 중심의 에이전트에 집중되어 있으며, 멀티모달이나 시각 언어 과업으로의 확장은 아직 검증되지 않았다. 또한 학습 과정에서 사용되는 사용자 시뮬레이터의 논리적 충실도에 따라 상호작용의 질이 좌우될 수 있는 RL 프레임워크의 일반적인 한계를 공유한다.
실무 활용
모호한 사용자 요청을 명확화해야 하는 모든 대화형 AI 서비스에 즉시 적용 가능하다. 특히 보상이 희소한 복잡한 업무 환경에서 에이전트의 학습 효율을 크게 높일 수 있다.
- 사용자의 예산이나 선호도가 불분명한 상황에서의 여행/상품 예약 에이전트
- 모호한 요구사항을 질문을 통해 구체화하며 코드를 작성하는 협업 프로그래밍 도구
- 다단계 진단 과정이 필요한 IT 기기 장애 조치 및 고객 지원 챗봇
- 복잡한 API나 도구를 사용하기 전 필요한 파라미터를 사용자에게 확인하는 워크플로 자동화 에이전트
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.