핵심 요약
기존 멀티모달 모델은 작은 물체 인식이나 회전된 텍스트 해석 등 복잡한 시각 작업에서 한계를 보였다. 이 논문은 고비용의 전문가 데이터 없이도 강화학습을 통해 모델이 스스로 줌인, 회전 등의 도구를 적재적소에 활용하여 추론 성능을 비약적으로 높이는 방법을 제시한다.
왜 중요한가
기존 멀티모달 모델은 작은 물체 인식이나 회전된 텍스트 해석 등 복잡한 시각 작업에서 한계를 보였다. 이 논문은 고비용의 전문가 데이터 없이도 강화학습을 통해 모델이 스스로 줌인, 회전 등의 도구를 적재적소에 활용하여 추론 성능을 비약적으로 높이는 방법을 제시한다.
핵심 기여
ToolsRL 프레임워크 제안
도구 사용 숙달과 정답 정확도 최적화를 분리한 2단계 교육과정(Curriculum) 기반의 강화학습 프레임워크를 구축했다.
도구 감독 보상 설계
줌인(Zoom-in), 회전/반전(Rotate/Flip), 그리기(Draw) 등 시각 도구별로 최적의 호출 시점과 방식을 가이드하는 직접적인 보상 함수를 설계했다.
데이터 효율성 확보
값비싼 전문가의 도구 사용 궤적 데이터 없이도 기본 데이터셋의 어노테이션(Bounding Box 등)을 활용해 도구 사용 능력을 학습할 수 있음을 입증했다.
SOTA 성능 달성
DocVQA-RF에서 77.3%, InfoVQA-RF에서 61.4%를 기록하며 기존 오픈소스 모델 및 DeepEyes 등 기존 기법을 크게 상회하는 성능을 보였다.
핵심 아이디어 이해하기
기존의 멀티모달 모델은 이미지 전체를 한 번에 보고 답을 내려고 시도하지만, 이는 마치 아주 먼 곳의 작은 글자를 돋보기 없이 읽으려는 것과 같다. Transformer 기반의 모델이 고해상도 이미지를 처리할 때 연산량 문제로 세부 정보를 놓치는 한계를 극복하기 위해, 이 논문은 모델에게 '돋보기(줌인)'나 '고개 돌리기(회전)'와 같은 도구를 쥐어준다.
핵심은 모델이 이 도구들을 언제, 어떻게 써야 할지 스스로 깨닫게 하는 것이다. 처음부터 정답만 맞추라고 강요하면 모델은 도구 사용법을 배우기보다 익숙한 텍스트 추론에만 의존하게 된다. 이를 해결하기 위해 1단계에서는 정답과 상관없이 '도구를 정확하게 조작하는 법'에 대해서만 보상을 주어 도구 사용 숙련도를 높인다.
이후 2단계에서는 숙달된 도구들을 자유롭게 사용하여 최종 정답을 맞추도록 유도한다. 이 과정에서 모델은 복잡한 시각적 증거를 수집하기 위해 여러 도구를 연쇄적으로 사용하는 '사고의 사슬(Chain-of-Thought)'을 시각적 영역으로 확장하며, 결과적으로 인간이 복잡한 그림을 분석할 때처럼 능동적으로 이미지를 탐색하게 된다.
방법론
ToolsRL은 2단계 교육과정 학습 전략을 채택한다. 1단계(Tool Supervision Stage)에서는 모델이 도구 상자를 정확하게 다루는 법을 배운다. 줌인 작업의 경우, 모델이 예측한 박스(b)와 정답 박스(g) 사이의 픽셀 단위 겹침 정도를 계산하는 Modified F1(ModF1) 보상을 사용한다. [예측 박스와 정답 박스의 교집합(TP) 및 차집합(FP, FN)을 입력으로] → [2TP / (2TP + 0.1*FP + FN) 연산을 수행해] → [0에서 1 사이의 점수를 얻고] → [이 값은 모델이 목표 대상을 놓치지 않으면서 충분히 크게 줌인했는지를 의미한다].
2단계(Task Accuracy Stage)에서는 도구 감독 보상을 제거하고 오직 최종 답변의 정확도에 대해서만 보상을 제공한다. 이때 모델은 1단계에서 배운 도구 사용 패턴을 활용해 시각적 증거를 생성하며, GRPO(Group Relative Policy Optimization) 알고리즘을 통해 정책을 업데이트한다. [동일 질문에 대한 여러 개의 응답 궤적을 입력으로] → [그룹 내 상대적 정확도 점수를 계산해] → [평균보다 우수한 궤적의 확률을 높이는 방향으로 가중치를 갱신하며] → [이는 모델이 정답을 맞추기 위해 가장 효율적인 도구 호출 시퀀스를 스스로 선택하게 만든다].
주요 결과
ToolsRL은 문서 이해, 공간 추론, 차트 분석 등 다양한 벤치마크에서 기존 SOTA 모델들을 압도했다. 특히 회전 및 반전이 포함된 DocVQA-RF 데이터셋에서 77.3%의 정확도를 기록하여 기존 최고 모델인 DeepEyes(61.3%)보다 16%p 높은 성능을 보였다. 공간 추론 벤치마크인 V-Star와 InfoVQA-Res에서도 각각 95.6%, 71.0%를 달성하며 Mini-o3 등 최신 모델 대비 4~12%p 이상의 성능 향상을 입증했다.
Ablation Study 결과, 2단계 교육과정 없이 정답 보상과 도구 보상을 동시에 최적화할 경우 모델이 도구 사용을 기피하고 텍스트 추론으로 회귀하는 현상이 확인되었다. 또한, 줌인 보상에서 오탐지(False Positive)에 대한 감점 가중치를 낮게 설정(wfp=0.1)하는 것이 모델의 적극적인 탐색을 유도하여 최종 성능 향상에 기여함을 수치적으로 증명했다.
기술 상세
ToolsRL은 Qwen2.5-VL-7B를 베이스 모델로 사용하며 GRPO 알고리즘을 통해 강화학습을 수행한다. 학습은 4개의 노드(총 32개의 H200 GPU)에서 FSDP를 적용하여 진행되었으며, 각 단계별로 200 스텝의 학습을 거친다. 도구 호출은 최대 10턴까지 허용되어 모델이 복잡한 다단계 시각 탐색을 수행할 수 있도록 설계되었다.
줌인 도구의 보상 함수인 ModF1은 정밀도(Precision)보다 재현율(Recall)에 가중치를 두어, 모델이 목표 객체를 포함하는 넉넉한 영역을 줌인하도록 유도한다. 이는 객체 탐지(Detection)와 달리 추론을 위한 '시각적 컨텍스트 확보'가 목적인 도구 사용의 특성을 반영한 것이다. 또한 그리기(Draw) 도구의 경우 Hungarian Matching을 이용해 모델이 생성한 좌표와 정답 좌표 간의 유사도를 계산하여 정밀한 좌표 예측 능력을 학습시킨다.
한계점
논문은 현재 ToolsRL이 줌인, 회전, 그리기와 같은 기본적이고 해석 가능한 시각 도구에 집중하고 있으며, 외부 세그멘테이션 모델과 같은 복잡한 외부 도구와의 연동은 아직 다루지 않았음을 한계로 명시하고 있다.
실무 활용
고해상도 이미지 분석이나 복잡한 문서 처리가 필요한 실무 환경에서 MLLM의 정확도를 획기적으로 높일 수 있는 기술이다.
- 회전되거나 왜곡된 스캔 문서의 자동 텍스트 추출 및 분석
- 복잡한 차트나 그래프에서 특정 데이터 포인트를 정밀하게 읽어내는 작업
- 고해상도 위성 사진이나 의료 영상에서 미세한 객체를 탐지하고 추론하는 서비스
코드 공개 여부: 비공개
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.