덜 자세할수록 더 나은 답변: 시각적 질의응답을 위한 성능 저하 기반 프롬프팅

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

최신 시각-언어 모델(VLM)이 고해상도 이미지의 미세한 질감이나 노이즈에 현혹되어 착시 현상에 취약하다는 점을 발견했습니다. 이미지의 세부 정보를 의도적으로 제거하는 DDP 기법을 통해 모델이 핵심적인 구조 정보에만 집중하게 함으로써 추론의 정확도와 신뢰성을 동시에 높일 수 있습니다.

왜 중요한가

핵심 기여

Degradation-Driven Prompting (DDP) 프롬프팅 프레임워크

이미지 해상도를 전략적으로 낮추고 구조적 보조 도구를 결합하여 VLM이 지엽적인 텍스트 노이즈 대신 전체적인 구조와 논리에 집중하도록 강제하는 새로운 추론 파이프라인을 구축했다.

에이전트 기반의 다단계 추론 파이프라인

입력 이미지를 분류(Classifier)하고, 필요한 도구를 호출(Tool Manager)하며, 최종적으로 논리적 검증(Critic)을 수행하는 에이전트 구조를 도입하여 시각적 기만 요소를 효과적으로 제거했다.

기만적 시각 과제에 대한 벤치마크 성능 돌파

기존 SOTA 모델들이 0%의 정확도를 기록하던 ColorBlind 데이터셋에서 29.33%의 Pass@1을 달성하며 시각적 착시 및 미세 패턴 인식 한계를 극복했다.

핵심 아이디어 이해하기

기존의 Vision-Language Model은 고해상도 이미지에서 추출된 미세한 픽셀 패턴과 질감 정보에 과도하게 의존하는 경향이 있다. 이는 딥러닝 모델이 이미지의 전역적인 구조(Global Structure)를 파악하기보다 국소적인 통계적 특징에 매몰되어 발생하는 문제로, 인간이 착시 현상을 피하기 위해 눈을 가늘게 뜨거나 멀리서 바라보는 것과 대조적이다.

DDP는 이러한 '고주파 노이즈'를 제거하기 위해 의도적으로 이미지의 피델리티를 낮추는 저역 통과 필터(Low-pass filter) 역할을 수행한다. 해상도를 80p 수준으로 극단적으로 낮추면 모델은 더 이상 미세한 질감에 의존할 수 없게 되며, 대신 이미지 내 객체들의 배치, 연결성, 기하학적 구조와 같은 핵심적인 위상 정보에 집중하게 된다.

결과적으로 모델은 불필요한 세부 정보로 인한 환각(Hallucination)에서 벗어나게 된다. 이는 데이터 처리 불평등(Data Processing Inequality) 원리에 기반하여 기만적인 텍스트 노이즈와 최종 예측 사이의 상호 정보량을 최소화함으로써, 모델이 시각적 함정에 빠지지 않고 논리적인 추론을 수행하도록 유도하는 원리다.

방법론

DDP 프레임워크는 크게 세 단계의 에이전트 워크플로우로 구성된다. 첫 번째 단계인 Classifier는 입력 이미지와 질문을 분석하여 해당 과제가 물리적 속성(Physical Attributes)인지 인지적 현상(Perceptual Phenomena)인지 분류한다. 이때 가우시안 스무딩(Gaussian Smoothing)을 적용한 I_base = Smooth(I, σ1)를 사용하여 초기 인지 편향을 억제한다.

두 번째 단계인 Tool Manager는 분류된 카테고리에 따라 적절한 시각 도구를 호출한다. 이미지 해상도를 약 150픽셀 수준으로 1차 압축(I_DDP = Downsample(I_base, R150))한 뒤, 보조선(Auxiliary lines), 마스크(White mask), 대비 향상(Contrast enhancement) 등의 도구를 적용하여 특징을 분리한다. 예를 들어 정렬 확인이 필요한 경우 Cartesian auxline을 겹쳐서 배치하여 모델이 기하학적 왜곡을 판단할 수 있는 기준점을 제공한다.

마지막 단계인 Target Prompting과 Critic은 가장 공격적인 성능 저하를 수행한다. 이미지를 최대 80픽셀 이하의 극저해상도로 다운샘플링(I_DDP = Downsample(I_tool, R80))하여 구조적 병목(Structural Bottleneck)을 형성한다. Critic 모듈은 이 정화된 이미지와 도구가 적용된 증거들을 종합하여 최종적인 Chain-of-Thought(CoT) 추론을 생성하고 정답을 도출한다.

주요 결과

DDP를 Gemini-3-Pro에 적용한 결과, 주요 벤치마크에서 성능 향상을 확인했다. MMBench에서 92.1%(기존 88.4% 대비 +3.7%), SEED-Bench에서 94.5%(기존 87.2% 대비 +7.3%)를 기록하며 GPT-4o(77.1%)를 크게 상회했다.

고해상도 시각 접지 능력을 평가하는 V*Bench에서는 전체 정확도 89.3%를 달성하여 GPT-4V(55.0%)와 LLaVA-1.5(48.7%)를 압도적인 차이로 앞섰다. 특히 공간 관계(Spatial Relationship) 작업에서 GPT-4V 대비 10.7% 향상된 71.2%의 점수를 기록했다.

가장 난이도가 높은 ColorBlind 데이터셋 실험에서는 o1, Gemini-2.5-Pro 등 최신 모델들이 모두 0%의 정확도를 보인 반면, DDP는 29.33%의 정확도를 기록하며 유의미한 성능 돌파를 증명했다. 소거 연구(Ablation Study) 결과, 이미지 성능 저하(Degradation) 단계를 제거했을 때 전체 성능이 8.7% 하락하여 해당 기법의 유효성을 입증했다.

기술 상세

DDP의 핵심 아키텍처는 '구조적 병목(Structural Bottleneck)' 개념을 추론 단계에 도입한 것이다. 이는 정보 이론의 Data Processing Inequality를 활용하여, 입력 이미지 I에서 기만적인 텍스트 노이즈 N과 최종 예측 Y 사이의 상호 정보량 I(N; Y)을 0으로 수렴하게 만드는 전략이다.

구현 측면에서 Tool Manager는 외부 라이브러리 Ω를 호출하여 I_tool = T(I_DDP, θ)를 생성한다. 여기서 θ는 에이전트가 동적으로 예측한 보조선의 위치나 각도 파라미터다. 예를 들어 Poggendorff 착시 해결을 위해 Cartesian auxline 도구는 예측된 교차점에 직교 참조선을 오버레이하여 모델이 직선의 연속성을 물리적으로 검증하게 한다.

최종 Critic 단계에서는 I_DDP(R≤80p)와 정제된 증거 T(I)를 입력으로 받아 A = critic(I_DDP, T(I), P_align) 연산을 수행한다. P_align은 모델이 시각적 특징과 물리적 차원을 논리적으로 대조하도록 유도하는 정렬 프롬프트다. 이러한 다단계 처리는 모델의 고주파 편향(High-frequency bias)을 억제하고 전역적 위상 이해를 강제하는 효과를 준다.

한계점

논문은 극단적인 다운샘플링이 구조적 정보까지 파괴할 수 있는 임계점이 존재함을 언급하며, 도구 호출(Tool invocation)의 정확도가 전체 파이프라인의 성능에 의존적이라는 한계를 명시했다.

실무 활용

시각적 착시나 복잡한 배경 노이즈가 포함된 실제 환경의 VQA 시스템에 즉시 적용 가능한 추론 전략이다. 별도의 모델 재학습 없이 기존 VLM API를 에이전트 구조로 감싸는 것만으로도 정확도를 높일 수 있다.

복잡한 배경 속에서 작은 객체의 개수를 정확히 세어야 하는 재고 관리 시스템
색상 간섭이나 착시가 발생하기 쉬운 의료 영상 분석 보조 도구
저해상도 환경에서도 핵심 구조를 파악해야 하는 드론 및 자율주행 시각 시스템
기만적인 시각 정보가 포함된 보안 이미지 검수 프로세스

코드 공개 여부: 공개

코드 저장소 보기

키워드

VLM(시각-언어 모델)VQA(시각적 질의응답)Downsampling(다운샘플링)Visual-Illusion(시각적 착시)Agentic-Reasoning(에이전트 기반 추론)