VisionFoundry: 합성 이미지를 활용한 시각 언어 모델의 시각적 지각 능력 학습

최신 시각 언어 모델(VLM)은 복잡한 추론은 잘하지만, 물체의 방향이나 깊이 같은 기초적인 시각 지각에서 의외의 약점을 보입니다. 이 논문은 사람이 직접 라벨링한 실제 사진 없이도, AI가 스스로 생성하고 검증한 합성 데이터만으로 이러한 지각 오류를 효과적으로 해결할 수 있음을 증명했습니다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

VisionFoundry 합성 데이터 생성 파이프라인

작업 키워드 하나만으로 LLM이 질문, 답변, 이미지 생성 프롬프트를 만들고, T2I 모델이 이미지를 생성하며, VLM이 최종 정렬 상태를 검증하는 완전 자동화된 폐쇄 루프 시스템을 구축했다.

VisionFoundry-10K 데이터셋 공개

공간 이해, 상대적 깊이, 시점 변화 등 기존 VLM이 취약했던 10가지 저수준 시각 지각 과제에 특화된 1만 개의 고품질 이미지-질문-답변 쌍을 구축했다.

시각 지각 벤치마크 성능의 유의미한 향상

VisionFoundry-10K로 파인튜닝한 결과, MMVP에서 +7%, CV-Bench-3D에서 +10%의 성능 향상을 기록하며 합성 데이터가 실제 데이터의 한계를 보완할 수 있음을 입증했다.

핵심 아이디어 이해하기

기존 VLM은 인터넷의 방대한 이미지-텍스트 쌍으로 학습되지만, 이 데이터들은 '사과가 테이블 위에 있다'는 식의 일반적인 설명에 치우쳐 있습니다. 정작 모델이 물체의 정확한 3D 방향이나 미세한 깊이 차이를 구분하는 데 필요한 '저수준 시각 신호'는 자연어 데이터셋에서 체계적으로 다뤄지지 않는 경우가 많아 지각 병목 현상이 발생합니다.

VisionFoundry는 이 문제를 해결하기 위해 '시각적 결정론(Visual Determinism)' 개념을 도입합니다. 이는 질문에 대한 답이 오직 이미지 안의 시각적 요소로만 결정되도록 프롬프트를 설계하는 것입니다. 예를 들어, 단순히 '사과'를 생성하는 것이 아니라 '빨간 사과가 파란 컵보다 카메라에 더 가깝게 위치한 장면'을 정밀하게 묘사하는 프롬프트를 생성하여 텍스트와 이미지 사이의 논리적 결합도를 극대화합니다.

마지막으로 생성된 이미지가 원래 의도한 시각적 사실과 일치하는지 Gemini-3-Pro와 같은 강력한 모델로 검증하는 단계를 거칩니다. 이를 통해 사람이 개입하지 않고도 모델이 학습하기에 충분히 정확하고 난이도 높은 시각 교육 자료를 무한히 생성할 수 있게 됩니다.

방법론

VisionFoundry 파이프라인은 세 단계로 구성된다. 첫째, VQA Triplet Generation 단계에서는 GPT-5.2를 사용하여 특정 작업(예: 깊이 순서)에 최적화된 질문, 정답, 그리고 매우 상세한 T2I(Text-to-Image) 프롬프트를 생성한다. 이때 답변을 결정짓는 핵심 시각 정보를 프롬프트에 직접 포함시켜 이미지와 텍스트의 정렬을 보장한다.

둘째, Image Synthesis 단계에서는 Gemini-2.5-Flash-Image 모델을 사용하여 앞서 생성된 상세 프롬프트를 기반으로 고해상도 이미지를 합성한다. 이 모델은 프롬프트 준수 능력이 뛰어나 복잡한 공간 관계를 정확하게 시각화한다.

셋째, Alignment Verification and Filtering 단계에서는 Gemini-3-Pro를 판독관으로 활용한다. 생성된 이미지와 질문-답변 쌍을 대조하여 시각적 사실 관계가 일치하는지 확인하며, 불일치할 경우 이미지를 수정하거나 해당 샘플을 폐기하는 이진 필터링(Binary Filtering)을 수행한다. [이미지와 텍스트 문장 입력 → VLM의 일치 여부 판단 연산 → YES/NO 출력 → 데이터셋 포함 여부 결정]

주요 결과

Qwen2.5-VL-3B, Llama-3.2-11B, MiMo-VL-7B 등 다양한 모델에서 실험한 결과, VisionFoundry-10K 학습 후 시각 지각 능력이 일관되게 향상됐다. 특히 공간 지각을 측정하는 MMVP-pair에서 Qwen2.5-VL-3B 기준 35.3%에서 42.0%로 +6.7%p 상승했으며, 3D 관계를 다루는 CV-Bench-3D에서는 66.0%에서 76.5%로 +10.5%p라는 큰 폭의 개선을 보였다.

합성 데이터와 실제 데이터(LLaVA-Instruct)를 혼합하여 학습했을 때, 동일한 크기의 실제 데이터만 사용했을 때보다 시각 지각 벤치마크에서 더 높은 성능을 기록했다. 이는 합성 데이터가 실제 데이터에서 얻기 힘든 정밀한 시각적 감독 신호를 보완해주는 효과가 있음을 시사한다.

데이터 규모에 따른 성능 변화 분석에서는 데이터 양이 증가함에 따라 지각 성능이 선형적으로 향상되는 스케일링 법칙이 관찰됐다. 또한, 특정 작업(예: 깊이 순서)에 특화된 데이터로 학습했을 때 해당 분야의 벤치마크 점수가 가장 크게 상승하는 타겟팅된 학습 효과가 확인됐다.

기술 상세

VisionFoundry는 참조 이미지나 인간의 주석 없이 오직 작업 키워드만으로 데이터셋을 구축하는 'Task-Aware' 방식을 채택했다. 이는 기존의 캡션 기반 합성 데이터 생성 방식보다 제어 가능성(Controllability)이 훨씬 높다. 아키텍처적으로는 LLM(생성), T2I(합성), VLM(검증)을 하나의 루프로 묶어 데이터의 품질을 자가 교정한다.

학습 시에는 ViT 인코더와 어댑터, LLM 백본을 모두 업데이트하는 전체 파인튜닝(Full Fine-tuning) 전략을 사용했다. 특히 MiMo-VL 모델의 경우, 모델의 논리적 추론 능력을 배제하고 순수 시각 지각 능력만을 측정하기 위해 'Non-thinking' 모드에서 평가를 진행하여 합성 데이터의 직접적인 기여도를 검증했다.

검증 단계에서 사용된 '문장 기반 검증(Statement-based verification)'은 질문-답변 쌍을 하나의 선언문으로 변환한 뒤 VLM이 이미지와의 일치 여부를 판단하게 함으로써, 질문의 모호성을 제거하고 검증의 정확도를 높였다. 실험 결과, 이러한 검증 단계가 포함된 데이터셋이 그렇지 않은 경우보다 벤치마크 성능 향상에 훨씬 더 기여하는 것으로 나타났다.

한계점

현재 VisionFoundry-10K는 저수준 시각 지각 과제에 집중하고 있어, 긴 추론 체인이 필요한 복잡한 시각적 논리 문제에는 한계가 있을 수 있다. 또한, 검증 단계에서 사용되는 상용 VLM(Gemini 등)의 판단 오류가 데이터셋에 일부 포함될 가능성이 존재한다.

실무 활용

VLM의 고질적인 문제인 '눈뜬 장님(시각적 오류)' 현상을 해결하기 위한 데이터 증강 도구로 활용 가능하다. 특히 실제 데이터 확보가 어려운 특수 환경이나 정밀한 공간 인식이 필요한 로보틱스 분야에서 유용하다.

자율 주행 및 로봇 제어를 위한 정밀 거리/방향 인식 데이터 생성
의료 영상 분석 등 고도의 시각적 세부 사항이 중요한 도메인의 학습 데이터 보완
VLM의 시각적 한계를 진단하고 특정 취약점을 집중적으로 개선하는 파인튜닝 파이프라인 구축

코드 공개 여부: 공개

코드 저장소 보기

키워드

VLM(시각 언어 모델)Synthetic Data(합성 데이터)Visual Perception(시각적 지각)T2I(텍스트-이미지 생성)VQA(시각적 질의응답)

VisionFoundry: 합성 이미지를 활용한 시각 언어 모델의 시각적 지각 능력 학습

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

VisionFoundry 합성 데이터 생성 파이프라인

VisionFoundry-10K 데이터셋 공개

공간 이해, 상대적 깊이, 시점 변화 등 기존 VLM이 취약했던 10가지 저수준 시각 지각 과제에 특화된 1만 개의 고품질 이미지-질문-답변 쌍을 구축했다.

시각 지각 벤치마크 성능의 유의미한 향상

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

자율 주행 및 로봇 제어를 위한 정밀 거리/방향 인식 데이터 생성
의료 영상 분석 등 고도의 시각적 세부 사항이 중요한 도메인의 학습 데이터 보완
VLM의 시각적 한계를 진단하고 특정 취약점을 집중적으로 개선하는 파인튜닝 파이프라인 구축

코드 공개 여부: 공개

코드 저장소 보기

키워드

VLM(시각 언어 모델)Synthetic Data(합성 데이터)Visual Perception(시각적 지각)T2I(텍스트-이미지 생성)VQA(시각적 질의응답)

VisionFoundry: 합성 이미지를 활용한 시각 언어 모델의 시각적 지각 능력 학습

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

VisionFoundry: 합성 이미지를 활용한 시각 언어 모델의 시각적 지각 능력 학습

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드