OpenClaw-RL: 대화만으로 학습하는 에이전트 강화학습 프레임워크

왜 중요한가

기존 AI 에이전트는 사용자의 피드백이나 도구 실행 결과를 단순히 다음 대화의 참고 자료로만 쓰고 버렸으나, 이 논문은 이를 실시간 학습 신호로 전환하는 방법을 제시한다. 개발자는 별도의 정답 데이터셋 구축 없이도 사용자와의 일상적인 상호작용만으로 에이전트의 성능을 지속적으로 개선하고 개인화할 수 있다.

핵심 기여

Next-state signal의 실시간 학습 자원화

사용자 응답, 도구 실행 결과, GUI 상태 변화 등 에이전트 행동 직후에 발생하는 신호를 평가(Evaluative) 및 지시(Directive) 정보로 복구하여 온라인 학습에 활용함.

비동기식 OpenClaw-RL 인프라 설계

추론 서버, 환경 서버, 보상 평가 서버, 학습 엔진을 완전히 분리된 4개의 독립 루프로 구성하여 서비스 중단 없는 실시간 정책 업데이트를 구현함.

Hindsight-Guided On-Policy Distillation 기법

다음 상태에서 텍스트 힌트를 추출하고 이를 강화된 교사 컨텍스트로 변환하여, 단순 스칼라 보상보다 풍부한 토큰 단위의 방향성 학습 신호를 생성함.

개인용 및 범용 에이전트 통합 지원

대화형 개인 비서부터 터미널, GUI, 소프트웨어 공학(SWE) 등 복잡한 환경의 에이전트까지 동일한 프레임워크 내에서 학습 가능한 범용성을 입증함.

핵심 아이디어 이해하기

기존 강화학습은 작업이 모두 끝난 뒤에 주어지는 성공/실패 점수에 의존하기 때문에, 긴 과정 중 어떤 행동이 구체적으로 잘못되었는지 파악하기 어렵다. 이는 Gradient Descent가 가중치를 갱신할 때 명확한 방향을 잡지 못하게 만드는 원인이 된다. OpenClaw-RL은 에이전트의 행동 직후에 나타나는 '다음 상태'가 사실상 그 행동에 대한 즉각적인 피드백이라는 점에 착안한다.

사용자가 "그 라이브러리 말고 다른 걸 써"라고 말하는 것은 단순한 대화가 아니라 에이전트의 이전 행동에 대한 강력한 수정 지시이다. 이 지시 사항을 힌트로 삼아 모델 스스로 "만약 이 힌트를 미리 알았더라면 어떻게 대답했을까?"를 계산하게 한다. 이 '교사' 상태의 답변 확률과 실제 에이전트의 답변 확률 차이를 이용해, 정답에 가까운 토큰은 강화하고 틀린 토큰은 억제하는 정교한 학습을 수행한다.

결과적으로 에이전트는 사용자와 대화하면 할수록 사용자의 말투, 선호하는 도구, 작업 방식 등을 실시간으로 학습하게 된다. 이는 정적인 데이터셋 학습의 한계를 넘어, 실제 배포 환경에서 살아있는 데이터를 통해 스스로 진화하는 에이전트 시스템을 가능하게 한다.

방법론

OpenClaw-RL은 Slime 프레임워크를 기반으로 한 완전 비동기 아키텍처를 채택한다. 정책 서빙(SGLang), 환경 호스팅, 보상 평가(PRM), 정책 학습(Megatron)이 각각 독립적인 루프로 동작하며 서로의 처리를 기다리지 않는다. 이를 통해 추론 지연 없이 실시간으로 수집된 상호작용 스트림을 학습에 투입한다.

평가 신호 처리를 위해 PRM(Process Reward Model) Judge를 구축한다. 에이전트의 행동 $a_t$ 와 다음 상태 $s_{t+1}$ 이 주어질 때, 다수결 방식을 통해 행동의 질을 +1, -1, 0 중 하나로 평가한다. 이 스칼라 값은 PPO 스타일의 Clipped Surrogate Objective 함수에 Advantage로 입력되어 정책을 업데이트한다.

지시 신호 처리를 위해 Hindsight-Guided OPD를 수행한다. 다음 상태 $s_{t+1}$ 에서 핵심적인 텍스트 힌트를 추출하고, 이를 원래 프롬프트 뒤에 결합하여 강화된 프롬프트 $s_{enhanced}$ 를 생성한다. 모델은 이 강화된 프롬프트 하에서 원래 답변 $a_t$ 의 로그 확률을 계산한다. [교사 모델의 로그 확률 - 학생 모델의 로그 확률] 연산을 통해 각 토큰별 Advantage를 도출하며, 이는 모델이 특정 단어를 선택할 확률을 높이거나 낮추는 직접적인 지표가 된다.

주요 결과

개인용 에이전트 실험에서 Binary RL과 OPD를 결합한 방식이 가장 우수한 성능을 기록했다. 학생 에이전트 시나리오에서는 36회의 상호작용만으로 AI 특유의 딱딱한 말투를 벗어나 자연스러운 스타일로 변화했으며, 교사 에이전트 시나리오에서는 24회의 학습만으로 더 친절하고 상세한 피드백을 제공하도록 개인화되었다.

범용 에이전트 벤치마크(Terminal, GUI, SWE, Tool-call)에서도 OpenClaw-RL의 유효성이 입증되었다. 특히 결과 보상(Outcome Reward)만 사용했을 때보다 PRM을 통한 단계별 보상(Process Reward)을 통합했을 때 성능이 크게 향상되었다. Tool-call 작업의 경우 정확도가 0.17에서 0.30으로, GUI 작업은 0.31에서 0.33으로 상승하며 장기적인 작업 수행 능력이 개선됨을 확인했다.

실무 활용

사용자의 실시간 피드백을 즉각적으로 반영하여 에이전트를 개인화하거나 특정 도구 사용 능력을 개선해야 하는 실무 환경에 적합하다.

사용자의 특정 코딩 스타일이나 라이브러리 선호도를 실시간으로 학습하는 개인용 코딩 어시스턴트
고객의 피드백을 바탕으로 상담 품질을 실시간으로 개선하는 고객 응대 에이전트
복잡한 GUI 환경에서 사용자의 수정 동작을 학습하여 자동화 정확도를 높이는 RPA 도구

기술 상세

OpenClaw-RL은 정책 모델로 Qwen3 시리즈(4B, 8B, 32B)를 사용하며, PRM Judge 역시 Qwen3 기반으로 구축하여 도메인 적응력을 높였다. 학습 시에는 PPO 알고리즘을 변형하여 사용하며, 실시간 대화 환경의 특성상 그룹 구조가 없는 점을 고려해 Step-wise Standardization 기법을 적용하여 Advantage의 분산을 제어한다.

OPD 메커니즘은 별도의 강력한 외부 교사 모델 없이, 힌트가 추가된 자기 자신을 교사로 활용하는 Self-distillation 구조를 가진다. 이는 $A_t = ext{log } ext{p}_{teacher}(a_t | s_{enhanced}) - ext{log } ext{p}_{ heta}(a_t | s_t)$ 수식을 통해 계산되며, 힌트가 포함된 상태에서의 토큰 분포와 원래 상태에서의 분포 차이를 학습 신호로 사용한다. 이 방식은 고가의 교사 모델 호출 비용을 절감하면서도 정교한 토큰 레벨 지도를 가능하게 한다.

한계점

OPD 기법은 다음 상태에서 명확한 수정 지시(Directive Signal)가 추출될 때만 유효하므로, 사용자의 반응이 모호하거나 힌트가 짧은 경우에는 학습 효율이 저하될 수 있다. 또한 PRM을 실시간으로 호스팅하기 위한 추가적인 컴퓨팅 자원이 요구된다.

키워드

Agentic RL(에이전트 강화학습)Process Reward Model(과정 보상 모델)Online Learning(온라인 학습)Hindsight-Guided OPD(사후 지도 온포리시 증류)Asynchronous Infrastructure(비동기 인프라)