PyVision-RL: 강화 학습을 통한 오픈 에이전트 비전 모델 구축

왜 중요한가

멀티모달 모델이 강화 학습 후 도구 사용을 기피하는 '상호작용 붕괴' 문제를 해결하여, 오픈 소스 모델도 강력한 에이전트 능력을 갖출 수 있음을 증명했다. 특히 비디오 처리에서 필요한 프레임만 골라 쓰는 방식을 통해 연산 비용을 획기적으로 낮추면서도 정확도를 높인 점이 핵심이다.

핵심 기여

PyVision-RL 프레임워크

오픈 웨이트 멀티모달 모델이 안정적으로 도구 사용 및 다회차 추론을 학습할 수 있도록 돕는 강화 학습 파이프라인을 구축했다.

누적 도구 보상 메커니즘

정답을 맞힌 경우에 한해 도구 호출 횟수에 비례한 보상을 추가하여, 모델이 효율적이면서도 적극적으로 도구를 활용하도록 유도했다.

온디맨드 비디오 컨텍스트 구축

비디오 추론 시 Python 코드로 필요한 프레임만 선택적으로 샘플링하는 전략을 도입하여 시각적 토큰 사용량을 획기적으로 줄였다.

오버샘플링-필터링-랭킹 전략

학습 신호가 명확하고 적절한 난이도를 가진 롤아웃(Rollout)을 선별하여 학습함으로써 에이전트 강화 학습의 안정성을 확보했다.

핵심 아이디어 이해하기

기존 멀티모달 모델은 강화 학습(RL)을 거치면 보상을 쉽게 얻기 위해 도구 사용을 줄이고 짧은 답변만 내놓는 '상호작용 붕괴' 현상을 겪는다. 이는 Gradient Descent가 가장 손쉬운 손실 감소 경로를 찾으려는 특성 때문에 발생하며, 복잡한 시각 정보를 처리해야 하는 에이전트에게는 치명적인 한계가 된다.

PyVision-RL은 이 문제를 해결하기 위해 보상 함수(Reward Function)를 재설계했다. 단순히 정답 여부만 따지는 것이 아니라, 정답을 맞혔을 때 도구를 많이 사용하여 심층적으로 분석한 경로에 더 높은 점수를 주는 '누적 도구 보상'을 도입했다. 이는 모델이 어려운 문제일수록 도구를 적극적으로 활용하여 증거를 수집하도록 유도하는 앵커 역할을 한다.

또한 비디오 처리에서 모든 프레임을 모델의 컨텍스트 윈도우에 밀어 넣는 대신, 모델이 Python 코드를 실행해 "300번 프레임을 보여줘"라고 요청할 때만 해당 정보를 주입한다. 이를 통해 모델은 제한된 토큰 예산 내에서 가장 중요한 시각적 단서에 집중할 수 있게 되며, 결과적으로 훨씬 적은 연산량으로도 고해상도 영상의 세부 사항을 정확히 파악할 수 있다.

방법론

전체 시스템은 Python을 기본 도구로 사용하는 에이전트 스캐폴드 구조를 가진다. 모델은 자연어 추론과 실행 가능한 Python 코드를 번갈아 생성하며, 환경(Sandbox)에서 코드를 실행한 결과인 시각적 힌트(이미지/프레임)를 다시 입력받아 최종 답변에 도달할 때까지 상호작용 루프를 반복한다.

강화 학습 단계에서는 GRPO 알고리즘을 기반으로 한 '오버샘플링-필터링-랭킹' 전략을 사용한다. [동일 프롬프트에서 다수의 응답 후보를 생성하고] → [실행 오류가 발생하거나 보상 변동이 없는 그룹을 제거한 뒤] → [그룹 내 보상의 표준 편차를 기준으로 난이도를 정렬하여] → [학습 효율이 가장 높은 중상위 난이도의 샘플을 선택한다]. 이 과정은 노이즈가 많은 에이전트 환경에서 모델이 유의미한 gradient를 학습할 수 있게 돕는다.

보상 계산 시에는 $R = R_{acc} + 0.1 \cdot n_{tc} \cdot \mathbf{1}_{\{R_{acc}=1\}}$ 수식을 적용한다. [정답 여부 $R_{acc}$ 와 도구 호출 횟수 $n_{tc}$ 를 입력으로] → [정답일 때만 호출 횟수에 0.1을 곱해 가산하는 연산을 수행해] → [최종 보상 R을 얻고] → [이 값이 클수록 모델이 정확하면서도 심층적인 분석을 수행했음을 의미한다].

주요 결과

이미지 벤치마크에서 PyVision-Image는 시각적 검색(V*)에서 기존 Qwen2.5-VL-7B 대비 +10.2%, 멀티모달 수학 추론(WeMath)에서 +9.6%의 성능 향상을 기록하며 SOTA를 달성했다. 특히 에이전트 전용 벤치마크인 TIR-Bench에서도 +7.3%의 이득을 보이며 동적 도구 활용의 우수성을 입증했다.

비디오 처리 효율성 측면에서 PyVision-Video는 놀라운 성과를 보였다. VSI-Bench에서 평균 5K 개의 시각적 토큰만 사용하여 44.0%의 정확도를 기록했는데, 이는 45K 개의 토큰을 사용하는 Qwen2.5-VL-7B(38.0%)보다 9배 적은 자원으로 더 높은 정확도를 낸 것이다. 이는 온디맨드 프레임 샘플링이 긴 영상 이해에 매우 효과적임을 보여준다.

Ablation Study를 통해 각 구성 요소의 기여도를 확인한 결과, 누적 도구 보상(ATR)을 제거했을 때 도구 사용 횟수가 급격히 감소하며 성능이 하락하는 것이 관찰되었다. 또한 최대 상호작용 턴 수(MTB)를 2에서 4로 늘렸을 때 MathVerse 성능이 4.65% 향상되어, 복잡한 문제일수록 긴 호흡의 상호작용 학습이 필수적임이 확인됐다.

실무 활용

고해상도 이미지 분석이나 긴 비디오에서 특정 정보를 찾아내야 하는 AI 에이전트 개발에 즉시 활용 가능하다. 특히 API 비용이나 연산 자원이 제한된 환경에서 효율적인 멀티모달 추론 시스템을 구축하는 데 적합하다.

CCTV 영상에서 특정 사건의 전후 맥락을 파악하고 관련 객체를 추적하는 보안 에이전트
수천 페이지의 도면이나 복잡한 차트 이미지에서 세부 수치를 추출하고 계산하는 전문 분석 도구
웹 브라우저 화면을 실시간으로 분석하며 사용자의 복잡한 명령을 수행하는 자율형 웹 에이전트

기술 상세

PyVision-RL은 Qwen2.5-VL-7B를 베이스 모델로 사용하며, LLaVA-Factory 프레임워크를 통해 SFT와 RL을 수행한다. 이미지 입력 시 3,136에서 2,000,000 픽셀 사이의 동적 해상도 조절을 지원하여 미세한 시각적 특징을 보존한다.

강화 학습 알고리즘인 GRPO를 에이전트 환경에 맞게 최적화했다. 특히 장점(Advantage) 계산 시 표준 편차 정규화 항을 제거했는데, 이는 보상 신호가 희소하고 노이즈가 많은 도구 사용 환경에서 학습 안정성을 높이기 위한 조치다. [그룹 내 평균 보상과의 차이만을 사용하여] → [개별 토큰의 장점을 계산함으로써] → [분산이 큰 환경에서도 일관된 업데이트 방향을 유지한다].

비디오 처리 아키텍처는 '지연 로딩(Lazy Loading)' 개념을 차용했다. 비디오 데이터는 모델의 직접적인 입력이 아닌 Python 런타임의 메모리에만 존재하며, 모델이 생성한 plt.show() 명령이 인터프리터에서 실행될 때만 해당 프레임이 시각적 힌트 토큰으로 변환되어 다음 턴의 입력으로 들어간다. 이 구조는 KV 캐시의 기하급수적 증가를 막고 모델이 장기적인 시간적 맥락을 추론할 수 있게 한다.

한계점

Python을 기본 도구로 사용하기 때문에 모델이 호스트 파일 시스템에 접근하거나 잠재적으로 유해한 코드를 실행할 위험이 있다. 따라서 실제 배포 시에는 엄격하게 격리된 샌드박스 환경이 필수적이다.

키워드

RL(강화 학습)Multimodal Agent(멀티모달 에이전트)Interaction Collapse(상호작용 붕괴)On-demand Context(온디맨드 컨텍스트)GRPO(그룹 상대 정책 최적화)