에이전트 비판적 학습: LLM 에이전트의 자율적 추론 및 행동 품질 평가 능력 향상을 위한 강화학습 패러다임

기존 AI 에이전트는 전문가의 행동을 단순히 모방할 뿐, 왜 그 행동이 최선인지 스스로 판단하지 못해 낯선 상황에서 쉽게 무너지는 한계가 있었다. ACT는 강화학습을 통해 모델이 여러 선택지 중 최적의 행동을 골라내는 '비판적 사고'를 스스로 깨우치게 함으로써, 에이전트의 성능과 일반적인 논리 추론 능력을 동시에 비약적으로 향상시키는 새로운 경로를 열어준다.

왜 중요한가

핵심 기여

ACT(Agentic Critical Training) 프레임워크 도입

전문가의 행동과 모델이 생성한 차선책을 비교하여 더 나은 행동을 식별하도록 훈련하는 새로운 강화학습 패러다임을 구축했다.

자율적 자기 성찰(Genuine Self-Reflection) 유도

미리 작성된 성찰 텍스트를 모방하게 하는 대신, 검증 가능한 보상을 통해 모델이 스스로 행동의 품질을 판단하는 추론 능력을 내재화하도록 유도했다.

에이전트 벤치마크 성능 극대화

ALFWorld, WebShop, ScienceWorld 등 주요 벤치마크에서 모방 학습 대비 평균 5.07점, 표준 강화학습 대비 4.62점의 성능 향상을 달성했다.

일반 추론 능력으로의 긍정적 전이

에이전트 환경에서만 학습했음에도 불구하고 MATH-500 및 GPQA-Diamond와 같은 일반 수학/과학 추론 벤치마크에서 성능 향상을 보이며 '추론 붕괴' 현상을 방지했다.

핵심 아이디어 이해하기

Transformer 기반의 LLM 에이전트는 주로 전문가의 행동 궤적을 그대로 따라 하는 모방 학습(Imitation Learning)으로 훈련된다. 이는 Attention 메커니즘이 전문가의 다음 토큰(행동)을 예측하도록 가중치를 조정하는 방식인데, 에이전트는 '무엇을 할지'는 배우지만 '왜 이 행동이 다른 대안보다 나은지'에 대한 근거는 밝히지 못한다. 결과적으로 학습 데이터와 조금만 다른 환경에 놓이면, 에이전트는 실패한 행동을 반복하며 루프에 빠지는 등 유연성이 현저히 떨어진다.

ACT는 모델을 단순한 '복제기'가 아닌 '비판가'로 먼저 훈련시켜 이 문제를 해결한다. 전문가의 행동과 모델 스스로 생성한 차선책을 한 쌍으로 묶어 제시하고, 모델이 어떤 것이 더 우수한지 식별하게 한다. 이때 정답을 맞혔을 때만 보상을 주는 강화학습(RL)을 적용하면, 모델은 보상을 극대화하기 위해 두 행동의 질적 차이를 분석하는 내부적인 사고 과정(Chain-of-Thought)을 스스로 발달시킨다. 이는 외부에서 주입된 지식이 아니라, 모델이 정답을 맞히기 위해 자율적으로 터득한 '진정한 자기 성찰' 능력이 된다.

이렇게 내재화된 비판적 사고는 실제 행동 생성 단계에서 강력한 힘을 발휘한다. 모델은 단순히 다음 행동을 예측하는 것을 넘어, 자신이 선택하려는 행동이 목표 달성에 적합한지 스스로 검증하고 오류가 발견되면 즉시 수정하는 능력을 갖추게 된다. 이러한 접근은 에이전트의 성공률을 높일 뿐만 아니라, 모방 학습 시 발생하는 일반 추론 능력의 저하(Reasoning Collapse)를 막고 모델의 전반적인 논리 체력을 강화하는 효과를 가져온다.

방법론

ACT의 데이터 구축 프로세스는 전문가 데이터셋에서 상태-행동 쌍을 추출하는 것으로 시작한다. 초기 정책 모델을 사용하여 각 상태에서 K개의 대안 행동을 샘플링하고, 전문가 행동과 중복되지 않는 차선책을 짝지어 대조 학습용 데이터셋을 생성한다. 이는 모델이 '좋은 행동'과 '나쁜 행동'의 경계를 명확히 인지할 수 있는 학습 재료가 된다.

학습은 GRPO(Group Relative Policy Optimization) 알고리즘을 기반으로 두 단계의 강화학습으로 진행된다. 첫 번째 단계인 Agentic Critical Training에서는 모델에게 무작위 순서로 배치된 두 행동 후보를 보여주고 더 나은 것을 선택하게 한다. [입력: 현재 상태와 두 개의 행동 후보 → 연산: 모델의 내부 추론 및 선택 확률 계산 → 출력: 선택된 행동 인덱스] 과정을 거치며, 전문가 행동을 정확히 식별했을 때 보상을 부여하여 비판적 판단 능력을 최적화한다.

두 번째 단계인 RL Action Training에서는 앞서 학습된 비판적 기초를 바탕으로 직접적인 행동 생성을 훈련한다. 모델이 생성한 응답에 대해 복합 보상 함수를 적용한다. [입력: 모델이 생성한 행동과 전문가 행동 → 연산: 일치 여부 및 실행 가능성 확인 → 출력: 합산된 보상 점수] 과정을 통해 모델은 단순히 정답을 맞히는 것을 넘어, 유효한 행동 범주 내에서 논리적으로 사고하도록 유도된다.

주요 결과

Qwen3-8B 모델을 사용한 실험에서 ACT는 ALFWorld(ID 92.86%, OOD 88.06%), WebShop(33.80%), ScienceWorld(50.34%) 등 모든 벤치마크에서 SOTA 성능을 기록했다. 특히 모방 학습(IL) 대비 평균 5.07%p, 일반 강화학습(RL) 대비 4.62%p의 성능 향상을 보였다.

분포 외(Out-of-Distribution) 일반화 성능에서도 ACT는 탁월한 성과를 보였다. ALFWorld의 OOD 테스트 세트에서 ACT를 추가했을 때의 이득(3.73pp)이 인분포(In-distribution) 테스트에서의 이득(2.15pp)보다 크게 나타나, 모델이 단순히 데이터를 암기하는 것이 아니라 일반적인 추론 규칙을 학습했음을 입증했다.

일반 추론 벤치마크인 MATH-500과 GPQA-Diamond에서도 ACT는 각각 87.73%와 53.37%의 정확도를 기록하며 원본 모델이나 IL/RL 모델보다 높은 성능을 보였다. 이는 에이전트 학습 과정에서 발생하는 '추론 붕괴(Reasoning Collapse)' 현상을 방지하고 오히려 모델의 기초 체력을 강화했음을 시사한다.

실무 활용

ACT는 복잡한 환경에서 자율적으로 의사결정을 내려야 하는 AI 에이전트의 신뢰성을 높이는 데 즉각적으로 활용될 수 있다. 특히 오류 발생 시 스스로 원인을 진단하고 복구하는 능력이 뛰어나 실무 환경의 예외 상황 대응에 유리하다.

웹 브라우징 및 전자상거래 자동화 에이전트의 정확도 개선
가정용 서비스 로봇의 복잡한 다단계 작업 수행 능력 향상
과학 실험 자동화 시스템의 논리적 단계 설계 및 오류 수정
수학 및 과학 문제 해결을 위한 추론 모델의 자기 검증 기능 강화

기술 상세

ACT는 에이전트의 자기 성찰(Self-reflection) 능력을 '모방 대상'이 아닌 '학습된 역량'으로 정의한다. 기존의 Early Experience 방식이 미리 생성된 성찰 텍스트를 SFT로 학습시켜 모델이 텍스트 패턴만 흉내 내게 했던 것과 달리, ACT는 검증 가능한 보상을 통해 모델이 정답에 도달하기 위한 최적의 추론 경로를 RL로 직접 탐색하게 한다. 이는 모델의 파라미터 내부에 행동 품질에 대한 판별 기준을 직접 각인시키는 효과를 낸다.

알고리즘 측면에서 GRPO를 사용함으로써 가치 함수 네트워크를 유지하는 비용을 제거하고 학습 효율성을 극대화했다. 그룹 내 응답들의 평균 보상을 기준으로 상대적인 이득(Advantage)을 계산하여 정책을 업데이트하므로, 모델은 더 논리적이고 정확한 추론 과정을 담은 응답에 더 높은 확률을 할당하도록 최적화된다.

논문은 모방 학습이 에이전트 데이터의 짧고 행동 중심적인 특성 때문에 모델의 깊은 추론 능력을 훼손하는 '추론 붕괴(Reasoning Collapse)' 현상을 정량적으로 규명했다. ACT는 결과의 정확성을 보상으로 삼는 RL 방식을 통해 모델이 가진 기존의 강력한 추론 능력을 보존하고 오히려 강화한다. 이는 MATH-500과 GPQA-Diamond 벤치마크에서의 성능 향상으로 입증됐다.

또한 ACT는 뛰어난 분포 외(OOD) 일반화 능력을 나타낸다. ALFWorld의 OOD 테스트에서 ACT를 적용했을 때의 성능 향상폭이 인분포(ID)보다 크게 나타났는데, 이는 모델이 특정 시나리오를 암기한 것이 아니라 '행동의 질을 평가하는 일반적인 원리'를 학습했음을 의미한다. 이는 복잡하고 가변적인 실제 환경에 에이전트를 배포할 때 매우 중요한 기술적 차별점이다.

한계점

ACT는 대조 쌍을 구성하기 위해 초기 정책으로부터 대안 행동을 샘플링해야 하므로 데이터 수집 비용이 발생할 수 있다. 또한, 전문가 행동이 항상 모델 생성 행동보다 우월하다는 가정을 전제로 하므로, 전문가 데이터의 품질에 의존적일 수 있다.

키워드

LLM Agent(대형 언어 모델 에이전트)Reinforcement Learning(강화학습)Imitation Learning(모방 학습)Self-Reflection(자기 성찰)GRPO(그룹 상대 정책 최적화)Out-of-Distribution(분포 외 일반화)

에이전트 비판적 학습: LLM 에이전트의 자율적 추론 및 행동 품질 평가 능력 향상을 위한 강화학습 패러다임

왜 중요한가

핵심 기여

ACT(Agentic Critical Training) 프레임워크 도입

전문가의 행동과 모델이 생성한 차선책을 비교하여 더 나은 행동을 식별하도록 훈련하는 새로운 강화학습 패러다임을 구축했다.

자율적 자기 성찰(Genuine Self-Reflection) 유도

에이전트 벤치마크 성능 극대화

ALFWorld, WebShop, ScienceWorld 등 주요 벤치마크에서 모방 학습 대비 평균 5.07점, 표준 강화학습 대비 4.62점의 성능 향상을 달성했다.

일반 추론 능력으로의 긍정적 전이

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

웹 브라우징 및 전자상거래 자동화 에이전트의 정확도 개선
가정용 서비스 로봇의 복잡한 다단계 작업 수행 능력 향상
과학 실험 자동화 시스템의 논리적 단계 설계 및 오류 수정
수학 및 과학 문제 해결을 위한 추론 모델의 자기 검증 기능 강화

에이전트 비판적 학습: LLM 에이전트의 자율적 추론 및 행동 품질 평가 능력 향상을 위한 강화학습 패러다임

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

기술 상세

한계점

키워드

에이전트 비판적 학습: LLM 에이전트의 자율적 추론 및 행동 품질 평가 능력 향상을 위한 강화학습 패러다임

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

기술 상세

한계점

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드