UniDoc-RL: 계층적 액션과 조밀한 보상을 활용한 조립식 시각적 RAG

기존 시각적 RAG 시스템은 문서 내의 복잡한 시각적 세부 사항을 놓치거나 불필요한 배경 노이즈를 포함하는 한계가 있었다. UniDoc-RL은 검색부터 세부 영역 크롭까지의 과정을 계층적 액션으로 정의하고 강화학습으로 최적화하여, 모델이 정보가 밀집된 핵심 영역에만 집중하도록 유도함으로써 추론 정확도를 획기적으로 높였다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

관련 Figure

#1Diagram
정확한 검색, 효과적인 시각 활용, 합리적인 보상이라는 세 가지 난제를 UniDoc-RL이 각각 선택 액션, 시각 인지 액션, 조밀한 멀티 보상 메커니즘으로 해결함을 보여준다. 기존 방식이 겪는 '혼란(Confused)' 상태와 UniDoc-RL의 '명확(Clear)' 상태를 대비시켜 모델의 우수성을 강조한다.
시각적 RAG의 세 가지 핵심 요소와 UniDoc-RL의 해결책을 비교한 다이어그램

핵심 기여

UniDoc-RL 통합 강화학습 프레임워크

검색, 재순위화, 능동적 시각 인지, 추론을 단일 의사결정 프로세스로 통합한 멀티모달 강화학습 프레임워크를 제안했다.

계층적 액션 공간 설계

거친 문서 검색에서 정밀한 이미지 선택, 그리고 핵심 영역을 추출하는 액티브 크로핑으로 이어지는 계층적 구조를 통해 시각적 노이즈를 효과적으로 억제했다.

조밀한 멀티 보상 체계 도입

최종 정답뿐만 아니라 검색의 적절성(NDCG), 선택의 정확도, 크로핑의 정밀도(IoU) 등 각 단계별로 명시적인 보상을 제공하여 신용 할당 문제를 해결했다.

고품질 추론 궤적 데이터셋 공개

강화학습 학습을 지원하기 위해 정밀한 액션 주석이 포함된 12,621개의 SFT 샘플과 5,537개의 RL 샘플로 구성된 데이터셋을 구축하여 공개했다.

핵심 아이디어 이해하기

기존의 시각적 RAG는 단순히 검색된 이미지를 모델에 입력하는 수동적인 방식에 의존했다. 이는 이미지 내의 수많은 텍스트와 도표 중 정답과 무관한 정보까지 Attention 연산에 포함시켜 모델의 혼란을 야기하고 연산 자원을 낭비하게 만든다. UniDoc-RL은 이를 해결하기 위해 시각 정보 획득을 '인간이 눈을 가늘게 뜨고 중요한 부분을 찾아내는 과정'과 같은 능동적인 의사결정 문제로 재정의했다.

핵심 원리는 GRPO(Group Relative Policy Optimization)를 기반으로 모델이 스스로 어떤 이미지를 선택하고 어느 부분을 확대해서 볼지 결정하게 만드는 것이다. 모델은 먼저 넓은 범위에서 후보 이미지를 찾고(Search), 그중 가장 관련성 높은 이미지를 골라낸 뒤(Select), 정답이 있을 법한 특정 영역을 좌표값으로 지정해 크롭(Crop)한다. 이 과정은 고해상도 세부 정보를 유지하면서도 불필요한 배경을 제거하여 모델이 정답 도출에 필요한 핵심 특징(Feature)에만 집중할 수 있게 한다.

결과적으로 모델은 단순히 주어진 정보를 읽는 수준을 넘어, 스스로 필요한 정보를 탐색하고 정제하는 능력을 갖추게 된다. 이는 특히 복잡한 차트나 긴 문서에서 특정 수치를 찾아야 하는 고난도 시각적 추론 작업에서 기존 방식보다 훨씬 높은 정확도와 효율성을 보여준다.

방법론

UniDoc-RL은 Thought-Action-Observation(T, A, O) 프레임워크 내에서 순차적 의사결정을 수행한다. 액션 공간은 세 단계로 구성된다. 첫째, Image Search 단계에서는 외부 검색 엔진을 호출하여 후보 이미지 집합을 가져온다. 둘째, Precise Selection 단계에서는 LVLM이 후보 중 쿼리와 의미적으로 가장 일치하는 이미지를 선택하여 문서 수준의 노이즈를 필터링한다. 셋째, Visual Perception 단계에서는 태그를 통해 관심 영역(ROI)의 좌표를 생성하고, 해당 영역을 크롭 및 줌하여 고해상도 시각 증거를 추출한다.

학습을 위해 조밀한 멀티 보상(Dense Multi-Reward) 시스템을 구축했다. 검색 결과의 품질은 NDCG 점수로 평가하며, 이미지 선택의 정확도는 정답 이미지 포함 여부에 따른 이진 보상을 부여한다. 시각 인지의 정확도는 예측된 크롭 영역과 실제 정답 영역 간의 IoU(Intersection over Union)를 계산한다. IoU는 [두 영역의 교집합 넓이 / 합집합 넓이]를 계산하여 0에서 1 사이의 값을 산출하며, 이 값이 클수록 모델이 핵심 정보를 정확하게 포착했음을 의미한다. 최종적으로 이 모든 보상과 정답 일치 여부에 따른 Outcome Reward를 가중 합산하여 전체 보상 r_total을 구성하고 이를 최대화하도록 정책을 업데이트한다.

관련 Figure

#2Diagram
검색, 선택, 크롭으로 이어지는 계층적 액션 공간과 GRPO 기반의 강화학습 루프를 상세히 설명한다. 특히 NDCG, IoU, 패턴 보상 등 다양한 보상 요소가 어떻게 결합되어 정책 모델을 업데이트하는지 시각적으로 나타낸다.
UniDoc-RL의 전체 프레임워크 및 멀티 보상 함수 구조도

주요 결과

ViDoSeek, SlideVQA, MMLongBench 등 3가지 주요 벤치마크에서 실험을 진행했다. UniDoc-RL은 Qwen2.5-VL-3B 및 7B 모델을 기반으로 기존 SOTA 모델들을 일관되게 능가했다. 특히 7B 모델 기준 전체 평균 정확도 74.8%를 기록하며, 이전의 강화학습 기반 방식인 VRAG-RL 대비 약 17.7%의 성능 향상을 달성했다.

Ablation Study 결과, 정밀 선택(Precise Selection) 액션이 검색 재현율(Recall)을 크게 높였으며, 액티브 크로핑(Visual Perception)은 세밀한 시각적 구분이 필요한 MMLongBench에서 가장 큰 기여를 한 것으로 나타났다. 또한, 조밀한 보상 체계가 단순히 최종 정답만으로 보상을 주는 방식보다 모델의 중간 의사결정 과정을 훨씬 효과적으로 최적화함을 입증했다.

관련 Figure

#3Chart
단순 검색만 했을 때보다 선택(Selection) 단계를 거쳤을 때 모든 벤치마크에서 재현율이 유의미하게 상승함을 보여준다. 이는 LVLM 기반의 정밀 필터링이 시각적 노이즈 제거에 핵심적인 역할을 함을 입증하는 수치이다.
선택 액션 추가 전후의 검색 재현율 비교 차트

기술 상세

UniDoc-RL의 아키텍처는 LVLM을 에이전트로 활용하며, GRPO 알고리즘을 통해 별도의 가치 네트워크(Value Network) 없이 정책을 직접 최적화한다. 이는 연산 효율성을 높이면서도 여러 목표(검색, 선택, 크롭, 추론)를 동시에 정렬할 수 있게 한다. 학습 과정은 SFT(Supervised Fine-Tuning)를 통한 Cold Start 이후, 설계된 멀티 보상 체계를 적용한 RL 단계로 진행된다.

데이터 합성 과정에서는 Qwen3-VL-235B를 교사 모델로 사용하여 고품질의 추론 궤적을 생성했다. 특히 시각 인지 액션의 정밀도를 높이기 위해 Mineru와 같은 레이아웃 분석 도구를 활용하여 후보 바운딩 박스를 생성하고, 교사 모델이 이 중 최적의 영역을 선택하도록 설계했다. 구현 측면에서는 llama-factory와 verl 프레임워크를 사용하여 8개의 NVIDIA A100 80G GPU 환경에서 학습을 수행했다.

한계점

논문은 강화학습 과정에서 고품질의 궤적 데이터를 생성하기 위해 강력한 교사 모델(Qwen3-VL-235B)에 의존해야 한다는 점과, 멀티 라운드 상호작용으로 인해 추론 시 지연 시간(Latency)이 발생할 수 있다는 점을 명시하고 있다.

실무 활용

복잡한 시각 자료가 포함된 문서에서 정확한 정보를 추출해야 하는 기업용 RAG 시스템이나 AI 에이전트 개발에 즉시 활용 가능하다.

수많은 차트와 표가 포함된 금융 보고서에서 특정 수치를 찾아 분석하는 자동화 시스템
복잡한 설계 도면이나 매뉴얼에서 특정 부품의 위치와 사양을 확인하는 기술 지원 에이전트
수천 장의 슬라이드 덱에서 질문에 적합한 시각 자료를 찾아 요약하는 교육용 AI 도구

코드 공개 여부: 공개

코드 저장소 보기

키워드

Visual RAG(시각적 검색 증강 생성)Reinforcement Learning(강화학습)Hierarchical Action Space(계층적 액션 공간)Active Perception(능동적 인지)GRPO(그룹 상대 정책 최적화)Dense Reward(조밀한 보상)

UniDoc-RL: 계층적 액션과 조밀한 보상을 활용한 조립식 시각적 RAG

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

관련 Figure

핵심 기여

UniDoc-RL 통합 강화학습 프레임워크

검색, 재순위화, 능동적 시각 인지, 추론을 단일 의사결정 프로세스로 통합한 멀티모달 강화학습 프레임워크를 제안했다.

계층적 액션 공간 설계

조밀한 멀티 보상 체계 도입

고품질 추론 궤적 데이터셋 공개

강화학습 학습을 지원하기 위해 정밀한 액션 주석이 포함된 12,621개의 SFT 샘플과 5,537개의 RL 샘플로 구성된 데이터셋을 구축하여 공개했다.

핵심 아이디어 이해하기

방법론

관련 Figure

주요 결과

관련 Figure

기술 상세

한계점

실무 활용

복잡한 시각 자료가 포함된 문서에서 정확한 정보를 추출해야 하는 기업용 RAG 시스템이나 AI 에이전트 개발에 즉시 활용 가능하다.

수많은 차트와 표가 포함된 금융 보고서에서 특정 수치를 찾아 분석하는 자동화 시스템
복잡한 설계 도면이나 매뉴얼에서 특정 부품의 위치와 사양을 확인하는 기술 지원 에이전트
수천 장의 슬라이드 덱에서 질문에 적합한 시각 자료를 찾아 요약하는 교육용 AI 도구

코드 공개 여부: 공개

코드 저장소 보기

UniDoc-RL: 계층적 액션과 조밀한 보상을 활용한 조립식 시각적 RAG

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

UniDoc-RL: 계층적 액션과 조밀한 보상을 활용한 조립식 시각적 RAG

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드