핵심 요약
기존의 시각 언어 모델은 이미지를 단순히 훑어보는 수준에 그쳐 복잡한 질문에 대해 잘못된 정보를 생성하는 환각 현상이 잦았습니다. 이 논문은 모델이 사람처럼 계획을 세우고 이미지의 특정 부분을 단계적으로 탐색하며 추론하는 Perceptual Flow 기법을 도입하여 시각적 이해의 정확도와 신뢰성을 동시에 높였습니다.
왜 중요한가
기존의 시각 언어 모델은 이미지를 단순히 훑어보는 수준에 그쳐 복잡한 질문에 대해 잘못된 정보를 생성하는 환각 현상이 잦았습니다. 이 논문은 모델이 사람처럼 계획을 세우고 이미지의 특정 부분을 단계적으로 탐색하며 추론하는 Perceptual Flow 기법을 도입하여 시각적 이해의 정확도와 신뢰성을 동시에 높였습니다.
관련 Figure

전문가의 어노테이션(최고 정밀도)이 반드시 최적의 추론 결과로 이어지지 않음을 보여준다. 적절한 수준의 맥락을 포함하는 'Golden Evidence' 영역에서 성능이 극대화됨을 입증하여 PFlowNet의 유연한 탐색 필요성을 뒷받침한다.
시각적 증거의 기하학적 정밀도가 추론 성능에 미치는 영향 분석 그래프
핵심 기여
Perceptual Flow 구조 도입
추론 과정을 계획(Planning)과 지각(Perceptual) 상태로 구조화한 Perceptual Flow를 정의하여 모델이 시각적 증거를 단계적으로 탐색하도록 설계했다.
Decoupled Framework 설계
지각 행동 생성과 최종 추론 과정을 분리하여 모델이 스스로 생성한 시각적 흐름에 따라 자기 조건화(Self-conditioned) 방식으로 정답을 도출하게 했다.
다차원 보상 기반의 변분 강화학습
품질, 추론 효용성, 기하학적 근거를 동시에 고려하는 다차원 보상 함수와 Vicinal Geometric Shaping 기법을 적용하여 모델의 탐색 능력을 최적화했다.
V* Bench 및 MME-RealWorld SOTA 달성
Qwen3-VL 8B 모델을 기반으로 V* Bench에서 90.6%, MME-RealWorld-lite에서 67.0%를 기록하며 기존 모델들을 압도하는 성능을 입증했다.
핵심 아이디어 이해하기
기존의 Large-Vision Language Models(LVLMs)는 이미지 전체를 한 번에 처리하거나 외부 전문가 모델이 제공하는 고정된 좌표(Geometric Priors)에 지나치게 의존하는 경향이 있었습니다. 이는 모델이 추론에 꼭 필요한 맥락을 놓치게 만드는 터널 시야(Tunnel Vision) 현상을 유발합니다. PFlowNet은 이를 해결하기 위해 시각적 탐색 자체를 하나의 최적화 가능한 흐름(Flow)으로 간주합니다.
먼저 Transformer의 Autoregressive 특성을 활용하여 질문에 답하기 위해 어떤 영역을 봐야 할지 계획을 세우고, 해당 영역을 순차적으로 로컬라이징하며 캡션을 생성합니다. 이 과정에서 모델은 단순히 정답을 맞히는 것뿐만 아니라, 자신이 선택한 시각적 증거가 정답 도출에 얼마나 기여했는지를 나타내는 정보 이득(Information Gain)을 최대화하도록 학습됩니다.
결과적으로 모델은 외부 전문가가 정해준 딱딱한 가이드라인에서 벗어나, 추론에 가장 유리한 시각적 경로를 스스로 찾아내게 됩니다. 이는 복잡한 공간 관계나 미세한 속성을 파악해야 하는 작업에서 환각을 줄이고 추론의 일관성을 확보하는 핵심 원리가 됩니다.
방법론
전체 아키텍처는 시각적 흐름 생성과 흐름 기반 추론의 두 단계로 구성된다. 입력 이미지 I와 지시문 T가 주어지면 모델은 먼저 Perceptual Flow Z를 샘플링하고, 이를 바탕으로 최종 답변 Y를 생성하는 pθ(Y, Z | X) = pθ(Z | X) pθ(Y | Z, <X, IRoI>) 구조를 가진다.
학습을 위해 Sub-Trajectory Balance(Sub-TB) 목적 함수를 도입했다. 이는 전체 경로의 확률 질량 F(z)와 전방/후방 전이 확률 TF, TB를 사용하여 [현재 상태의 흐름 강도 × 전방 이동 확률] → [다음 상태의 흐름 강도 × 후방 이동 확률] 순으로 계산하여 모든 부분 경로에서 일관된 최적화가 이루어지도록 한다. 이를 통해 PPO와 같은 기존 강화학습보다 더 밀도 높은 중간 감독 신호를 제공한다.
보상 설계에서는 다차원 접근 방식을 사용한다. 긍정적/부정적 시각 맥락 우도 p+φ(zi)와 p-φ(zi)의 비율을 계산하여 [확대된 영역의 캡션 확률 ÷ 외부 영역의 캡션 확률] → [시각적 근거의 품질 점수]를 도출한다. 여기에 최종 정답에 대한 로그 우도 변화량을 더해 추론 효용성을 측정하고, 전문가 가이드와의 거리 dIoU를 기반으로 한 에너지 가중치 ωλ를 곱해 유효한 탐색 범위를 제한한다.
관련 Figure

기존 방식이 전문가 경로에 경직되게 정렬되는 반면, PFlowNet은 Vicinal Geometric Shaping을 통해 더 넓고 유연한 유효 영역(Sv)을 탐색함을 시각화한다. 이를 통해 더 높은 추론 효용성을 가진 경로를 발견할 수 있음을 설명한다.
기존 방식과 PFlowNet의 최적화 목표 및 유효 영역 비교 다이어그램

교사 모델(GPT-4o 등)을 활용하여 무작위로 확장된 RoI와 캡션을 생성하고 검증 과정을 거쳐 고품질 학습 데이터를 구축하는 과정을 설명한다. Cold-start와 RFT 단계를 위한 데이터 준비 과정을 보여준다.
학습 데이터 큐레이션 및 Perceptual Flow 합성 파이프라인
주요 결과
메인 벤치마크인 V* Bench에서 PFlowNet은 90.6%의 정확도를 기록하며 GPT-4o(66.0%) 및 기존 SOTA 모델인 DeepEyes(90.0%)를 능가했다. 특히 공간 관계 추론(Spatial) 항목에서 89.5%를 달성하여 기본 모델 대비 16%p 이상의 성능 향상을 보였다.
MME-RealWorld-lite 벤치마크에서도 67.0%를 기록하여 Qwen3-VL 8B 기본 모델(48.6%) 대비 18.4%p 향상된 결과를 얻었다. 이는 모델이 실제 환경의 복잡한 시각 정보를 처리하는 데 있어 Perceptual Flow가 매우 효과적임을 시사한다.
효율성 분석 결과, PFlowNet은 에이전트 기반 프레임워크(DeepEyes, Thyme 등)와 비교하여 훨씬 짧은 컨텍스트 길이와 낮은 추론 지연 시간(Latency)을 기록했다. 이는 복잡한 도구 호출 없이 모델 내부의 구조화된 흐름만으로 고성능 추론이 가능함을 보여준다.
관련 Figure

PFlowNet이 기본 모델 및 기존의 에이전트/RLVR 기반 모델들을 모든 지표에서 능가함을 수치로 보여준다. 특히 추론 중심의 하위 작업에서 압도적인 성능 향상 폭을 확인할 수 있다.
주요 벤치마크별 성능 비교표 (TreeBench 및 MME-RealWorld)
기술 상세
PFlowNet은 시각적 추론 경로를 잠재 변수 Z로 취급하는 변분 추론(Variational Inference) 프레임워크를 채택했다. 타겟 후험 분포 PV(Z | X, Y)를 근사하기 위해 자가 파라미터화된 분포 pθ(Z | X)를 학습시킨다.
핵심 알고리즘인 Variational RFT는 Vicinal Risk Minimization 개념을 도입한 Vicinal Geometric Shaping을 사용한다. 이는 전문가의 Prior E 주변에 ε-vicinity 영역 Bε를 설정하고, 이 범위를 벗어나는 탐색에 대해 지수적으로 감쇠하는 에너지 가중치를 부여하여 모델이 유효한 영역 내에서 자유롭게 탐색하도록 유도한다.
이론적으로 Theorem 3.1을 통해 PFlowNet의 정책과 타겟 후험 분포 사이의 Total Variation(TV) 거리에 대한 상한선을 증명했다. λ(성형 강도)와 ε(반경) 매개변수를 적절히 조절함으로써 일반적인 MLE 학습이나 경직된 RLVR 방식보다 항상 더 타이트한 성능 보장 범위를 가짐을 수학적으로 입증했다.
구현 측면에서는 vLLM과 TRL을 결합한 커스텀 프레임워크를 사용했으며, 16개의 NVIDIA H200 GPU에서 하이브리드 병렬화 전략(DeepSpeed ZeRO-3 등)을 통해 대규모 학습을 수행했다.
관련 Figure

텍스트/비전 인코더를 거쳐 Perceptual Flow가 생성되고, 보상 모델이 품질, 효용성, 기하학적 근거를 평가하는 과정을 상세히 보여준다. 분리된(Decoupled) 구조를 통해 단계적 추론이 이루어짐을 명시한다.
PFlowNet의 전체 프레임워크 및 다차원 보상 모델 구조도
한계점
현재 PFlowNet은 모든 질문에 대해 고정된 구조의 추론 형식을 사용하므로, 간단한 질문에 대해서는 불필요한 연산 오버헤드가 발생할 수 있다. 또한 계획 단계(Planning State)에 대한 직접적인 감독 학습이 부족하여 복잡한 시나리오에서 증거 분해에 실패할 가능성이 존재한다.
실무 활용
복잡한 이미지 내 객체 탐색 및 세밀한 속성 분석이 필요한 실무 환경에서 높은 신뢰성을 제공한다.
- 고해상도 이미지 내 미세 결함 탐지 및 분석 시스템
- 복잡한 웹/앱 GUI 환경에서의 자율 에이전트 조작
- 의료 영상 내 특정 병변의 단계적 탐색 및 진단 보조
- 물류 창고 내 다수 객체의 공간 관계 파악 및 재고 관리
코드 공개 여부: 비공개
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.