왜 중요한가
기존 시각-언어 모델은 복잡한 단계별 추론 시 중간 단계의 작은 실수가 최종 결과의 큰 오류로 이어지는 한계가 있었습니다. 이 논문은 시각적 증거를 단계별로 확인하도록 강제하는 멀티홉 데이터를 합성하여 모델의 추론 정확도와 일반화 능력을 획기적으로 개선했습니다.
핵심 기여
HopChain 프레임워크 제안
시각적 증거에 기반한 논리적 의존성을 가진 멀티홉 추론 데이터를 대규모로 합성하는 확장 가능한 파이프라인을 구축했다.
복합적 실패 모드 분석
롱체인 사고(CoT) 과정에서 발생하는 지각, 추론, 지식, 환각 오류가 어떻게 누적되어 최종 실패로 이어지는지 정량적으로 분석했다.
검증 가능한 수치적 정답 생성
RLVR 학습에 적합하도록 모든 멀티홉 쿼리의 최종 정답을 명확하고 검증 가능한 숫자로 설계했다.
광범위한 벤치마크 성능 향상
STEM, 퍼즐, 문서 이해, 비디오 이해 등 24개 벤치마크 중 20개에서 성능 향상을 입증하며 데이터의 일반화 능력을 증명했다.
핵심 아이디어 이해하기
기존 Vision-Language Model(VLM)은 간단한 질문에는 잘 답하지만, 여러 단계를 거쳐야 하는 복잡한 추론에서는 취약하다. 이는 Attention 메커니즘이 긴 추론 과정에서 이미지의 핵심 정보를 놓치거나, 이전 단계의 사소한 지각 오류가 다음 단계의 논리적 결함으로 전이되는 '오류 누적' 현상 때문이다.
HopChain은 이를 해결하기 위해 '논리적 의존성'을 가진 홉(Hop)들을 체인 형태로 엮는다. 예를 들어 'A를 찾고 -> A 옆의 B를 확인하고 -> B의 숫자를 읽어라'와 같은 구조다. 각 단계는 이전 단계의 결과물(인스턴스, 세트, 조건)이 있어야만 수행 가능하므로, 모델이 매 단계마다 이미지에 다시 집중(Re-grounding)하도록 강제한다.
결과적으로 모델은 언어적 지름길(Shortcuts)을 타지 못하고 실제 시각적 증거를 끝까지 추적하게 된다. 이는 특히 수천 토큰에 달하는 울트라 롱 CoT 환경에서 모델이 환각에 빠지지 않고 정확한 결론에 도달하게 만드는 핵심 동력이 된다.
방법론
4단계 데이터 합성 파이프라인을 사용한다. 먼저 Qwen3-VL-235B를 이용해 이미지 내 의미론적 카테고리를 식별하고, SAM3를 통해 각 객체의 세그멘테이션 마스크와 바운딩 박스를 생성하여 개별 인스턴스를 로컬라이즈한다.
멀티홉 쿼리 생성 단계에서는 지각 레벨 홉(Perception-level hop)과 인스턴스 체인 홉(Instance-chain hop)을 조합한다. 지각 레벨 홉은 단일 객체 속성 파악과 다중 객체 관계 추론 사이를 전환하며, 인스턴스 체인 홉은 A → B → C와 같은 명시적 의존 관계를 형성한다.
최종적으로 인간 검수자가 독립적으로 쿼리를 풀이하여 정답이 일치하는 데이터만 선별한다. 학습에는 SAPO(Soft Adaptive Policy Optimization) 알고리즘을 적용하여 RLVR(Reinforcement Learning with Verifiable Rewards)을 수행한다. [현재 정책의 토큰 확률과 이전 정책의 토큰 확률 비(ratio)를 입력으로] → [소프트 게이트 함수 fi,t를 통해 가중치를 계산하고 보상의 Advantage 값과 곱하는 연산을 수행해] → [최종 손실 함수 값을 얻고] → [이 값이 gradient descent를 통해 줄어들면서 모델이 시각적 증거에 기반한 정확한 추론을 하도록 가중치를 갱신한다].
주요 결과
Qwen3.5-35B-A3B와 Qwen3.5-397B-A17B 모델을 대상으로 24개 벤치마크에서 평가를 진행했다. HopChain 데이터를 추가하여 학습했을 때 두 모델 모두 20개의 벤치마크에서 성능이 향상되었으며, 특히 STEM 및 퍼즐 영역에서 두드러진 개선을 보였다.
롱체인 사고(Long-CoT) 분석 결과, 응답 길이가 길어질수록 HopChain의 효과가 극대화되었다. 울트라 롱 CoT 구간에서는 기본 모델 대비 정확도가 50포인트 이상 향상되는 결과를 얻었으며, 이는 모델이 긴 추론 과정에서도 시각적 정박(Visual Grounding)을 유지함을 시사한다.
절제 연구(Ablation Study)를 통해 전체 체인을 유지하는 것의 중요성을 확인했다. 멀티홉 쿼리를 싱글홉이나 하프홉으로 줄였을 때 5개 대표 벤치마크의 평균 점수가 70.4점에서 각각 64.3점과 66.7점으로 하락하여, 복잡한 의존 관계 학습이 필수적임을 입증했다.
실무 활용
복잡한 시각적 정보 처리가 필요한 산업 현장에서 VLM의 신뢰성을 높이는 데 즉시 활용 가능합니다. 특히 정밀한 객체 추적과 논리적 단계가 필요한 문서 분석이나 비디오 보안 관제 분야에 유용합니다.
- 복잡한 도표 및 차트 내의 다단계 수치 계산 자동화
- CCTV 영상 내 특정 행동 패턴 및 객체 간 상호작용 추적
- 의료 영상 내 여러 병변의 위치 관계 및 특성 종합 분석
- 자율 주행 시스템의 복잡한 도로 상황 논리적 판단 강화
기술 상세
HopChain은 RLVR 학습을 위한 데이터 부족 문제를 해결하기 위해 설계된 벤치마크 불가지론적(Benchmark-agnostic) 프록시 태스크 생성 프레임워크다. 기존의 단순 캡셔닝이나 단답형 VQA와 달리, 중간 단계의 논리적 정합성이 최종 정답 도출의 필수 조건이 되도록 설계되었다.
쿼리 구조는 레벨 1(단일 객체 지각), 레벨 2(다중 객체 관계), 레벨 3(멀티홉 추론)으로 계층화된다. 레벨 3 쿼리는 반드시 레벨 1과 2를 혼합해야 하며, 이전 홉에서 식별된 인스턴스가 다음 홉의 입력 조건이 되는 강한 결합(Strong Dependency)을 유지해야 한다.
학습 알고리즘인 SAPO는 기존 GRPO나 GSPO의 하드 클리핑(Hard Clipping) 문제를 해결하기 위해 온도 제어 소프트 게이트(Temperature-controlled soft gate)를 도입했다. 이를 통해 RLVR 과정의 안정성을 높이고 모델이 더 긴 CoT를 생성하도록 유도한다.
데이터 합성 시 이미지 필터링 과정을 거쳐 폐색(Occlusion), 밀집 객체, 특이한 포즈 등 시각적으로 도전적인 케이스를 우선적으로 선별한다. 이는 모델이 쉬운 언어적 패턴에 의존하는 것을 방지하고 실제 시각 지각 능력을 강화하는 역할을 한다.
한계점
현재 파이프라인은 성공적인 인스턴스 세그멘테이션에 의존하므로, 감지 가능한 객체가 없거나 SAM3로 분할하기 어려운 이미지는 처리할 수 없다. 또한 세그멘테이션이 불가능한 추상적 개념이나 복잡한 텍스트 위주의 이미지에 대한 보완이 필요하다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.