핵심 요약
기존의 이미지 품질 평가는 이미지 전체를 하나의 숫자로 요약하는 방식에 의존하여 세부 지역의 왜곡을 놓치는 한계가 있었다. 이 논문은 이미지를 지역 단위로 쪼개어 왜곡 종류와 심각도를 그래프 구조로 표현하는 Distortion Graph를 제안하여, MLLM이 세밀한 시각적 결함을 더 정확하게 이해하도록 돕는다.
왜 중요한가
기존의 이미지 품질 평가는 이미지 전체를 하나의 숫자로 요약하는 방식에 의존하여 세부 지역의 왜곡을 놓치는 한계가 있었다. 이 논문은 이미지를 지역 단위로 쪼개어 왜곡 종류와 심각도를 그래프 구조로 표현하는 Distortion Graph를 제안하여, MLLM이 세밀한 시각적 결함을 더 정확하게 이해하도록 돕는다.
핵심 기여
Distortion Graph(DG) 태스크 정의
이미지 쌍을 지역 기반의 구조적 토폴로지로 취급하고 왜곡 유형, 심각도, 비교 관계 및 품질 점수를 컴팩트하고 해석 가능한 그래프 구조로 표현하는 새로운 평가 패러다임을 정의했다.
대규모 지역 수준 데이터셋 PandaSet 구축
528,000개 이상의 이미지 쌍에 대해 15가지 왜곡 유형과 4단계 심각도를 포함하는 상세한 지역별 왜곡 주석을 제공하는 데이터셋을 구축했다.
효율적인 아키텍처 PANDA 설계
DETR 스타일의 쿼리 기반 구조를 활용하여 이미지 쌍으로부터 지역별 속성과 관계를 예측하고 왜곡 그래프를 생성하는 가벼운(0.028B 파라미터) 모델을 개발했다.
PandaBench 벤치마크 제안
MLLM의 지역 수준 왜곡 이해 능력을 체계적으로 평가하기 위해 난이도가 다른 세 가지 split(Easy, Medium, Hard)으로 구성된 벤치마크를 마련했다.
관련 Figure

이미지 내의 사람, 라켓, 펜스 등 각 지역이 노드가 되고, 이들 사이의 왜곡 관계(darken, noise, blur 등)가 에지로 연결되는 구조를 시각화했다. 이를 통해 DG가 어떻게 지역 단위의 상세 정보를 캡처하는지 직관적으로 설명한다.
PANDA 모델이 두 이미지 사이의 왜곡 그래프(DG)를 생성하는 전체 과정을 보여주는 개요도이다.
핵심 아이디어 이해하기
기존의 이미지 품질 평가(IQA)는 주로 Convolutional Neural Network나 Transformer를 통해 이미지 전체의 특징을 추출하고 이를 하나의 스칼라 점수로 회귀(regression)시키는 방식을 사용했다. 하지만 이러한 'Top-down' 방식은 이미지 내 특정 부분에 발생한 미세한 노이즈나 블러가 전체 품질에 미치는 영향을 구체적으로 설명하지 못하며, 특히 두 이미지를 비교할 때 어느 부분이 왜 더 나쁜지에 대한 논리적 근거를 제시하기 어렵다.
이 논문은 이미지를 의미 있는 지역(region)들의 집합으로 보고, 각 지역을 노드로, 지역 간의 관계를 에지로 정의하는 Scene Graph 개념을 이미지 비교 영역으로 확장했다. 각 노드에는 해당 지역의 왜곡 상태(Embedding된 속성)를 저장하고, 에지에는 두 이미지 사이의 상대적인 품질 차이(Predicate)를 기록한다. 이를 통해 복잡한 시각적 정보를 'A 지역은 B 이미지보다 블러가 심해 품질이 낮다'와 같은 구조화된 데이터로 변환한다.
결과적으로 이러한 구조적 표현은 MLLM이 단순히 이미지를 보는 것을 넘어, 그래프의 논리적 연결을 따라가며 추론할 수 있게 한다. 이는 마치 사람이 사진을 비교할 때 '이 사람의 얼굴 부분이 저 사진보다 더 뭉개졌네'라고 판단하는 인지 과정을 모사한 것으로, 시각적 이해의 정밀도를 획기적으로 높이는 기반이 된다.
방법론
PANDA 아키텍처는 이미지 쌍(Anchor, Target)을 입력받아 지역별 왜곡 정보를 예측하는 다중 헤드 구조를 채택했다. 먼저 DINOv2와 같은 사전 학습된 Encoder를 통해 이미지 특징 맵 F를 추출하고, SAM(Segment Anything Model)을 활용한 Panoptic Segmentation으로 각 지역의 이진 마스크 m을 생성한다. [이미지 특징 맵과 마스크 입력 → Hadamard Product 연산 → 지역별 특징 벡터 H 생성] 과정을 통해 각 지역의 시각적 정보를 보존한다.
추출된 지역 특징은 Degradation Decoder로 전달된다. 이 디코더는 Transformer 레이어를 기반으로 하며, 각 지역 쿼리가 이미지 전체 특징에 주목(Self-Attention)하고 대응되는 상대 이미지의 지역과 비교(Cross-Attention)하도록 설계됐다. [지역 쿼리와 특징 맵 입력 → Multi-head Attention 연산 → 업데이트된 지역 표현 생성] 과정을 거쳐 두 이미지 간의 상관관계를 학습한다.
최종적으로 4개의 예측 헤드(MLP)가 각 지역에 대해 왜곡 유형(Distortion), 심각도(Severity), 상대적 비교(Relation), 품질 점수(Score)를 출력한다. 분류 태스크에는 Categorical Cross-Entropy Loss를, 점수 회귀에는 L1 Loss를 사용하며, 전체 손실 함수 L = λ1L_rel + λ2L_dist + λ3L_sev + λ4L_score로 정의되어 모든 속성을 동시에 최적화한다.
관련 Figure

이미지 인코더, 파놉틱 세그멘테이션, 토큰 풀, 그리고 셀프/크로스 어텐션을 포함하는 Degradation Decoder의 연결 구조를 상세히 보여준다. 각 예측 헤드가 지역 속성과 관계를 어떻게 출력하는지 기술적으로 명시한다.
PANDA 아키텍처의 상세 구조를 나타낸 다이어그램이다.
주요 결과
PandaBench Easy 세트 실험 결과, PANDA 모델은 왜곡 분류 정확도 0.78, 심각도 정확도 0.59를 기록하며 기존 MLLM들을 압도했다. 특히 GPT-4o(왜곡 0.46, 심각도 0.33)나 Gemini 2.5 Pro(왜곡 0.39, 심각도 0.29)와 같은 거대 모델들조차 지역 수준의 세밀한 왜곡 분석에서는 무작위 선택보다 조금 나은 수준의 성능을 보였다.
난이도가 높은 Hard 세트에서도 PANDA는 왜곡 정확도 0.27을 유지하며 성능 하락폭이 가장 적었으나, 대부분의 MLLM은 성능이 급격히 저하되어 지역 기반 추론의 어려움을 입증했다. 또한, PANDA가 생성한 왜곡 그래프를 GPT-5 Mini의 Chain-of-Thought 프롬프트에 힌트로 제공했을 때, 모델의 지역 왜곡 이해 정확도가 약 15% 향상되는 Emergent Results를 확인했다.
효율성 측면에서 PANDA는 단 0.028B의 파라미터만으로도 7B 이상의 대형 모델들보다 뛰어난 성능을 보였으며, 이미지 쌍당 추론 시간은 3.53초로 타 오픈소스 MLLM(최대 274초) 대비 월등히 빨랐다. 이는 구조적 표현이 모델의 연산 효율성을 극대화할 수 있음을 보여준다.
관련 Figure

날씨, 카메라 장비, 디지털 처리, 조명 등 다양한 카테고리의 왜곡이 균형 있게 분포되어 있음을 보여준다. 이는 데이터셋의 다양성과 벤치마크로서의 신뢰성을 뒷받침한다.
PandaSet에 포함된 15가지 왜곡 유형과 심각도 분포를 보여주는 통계 차트와 예시 이미지들이다.
기술 상세
PANDA는 DETR의 객체 탐지 메커니즘을 왜곡 분석에 맞게 변형했다. 고정된 수의 학습 가능한 토큰을 사용하는 대신, 입력 이미지에서 추출된 실제 지역 마스크를 기반으로 토큰 풀을 동적으로 구성한다. 각 지역 노드는 o = (class, mask, image_id, distortion_attr, scene_attr)의 5-tuple로 정의되어 풍부한 메타데이터를 보유한다.
왜곡 그래프(DG)의 핵심인 에지(Edge) 정의는 Validity, Ordering, Functional Comparison의 세 가지 속성을 따른다. 에지는 항상 Anchor 지역에서 Target 지역으로 향하는 방향성을 가지며, 두 이미지 사이의 동일한 객체 지역 쌍에 대해 반드시 하나의 왜곡 관계 r이 존재하도록 강제한다. 이는 그래프의 일관성을 유지하고 비교 연산의 복잡도를 O(N)으로 제어하는 데 기여한다.
학습 시에는 DINOv2 가중치를 고정한 상태에서 디코더와 예측 헤드만 학습시키는 효율적인 전략을 취했다. 8개의 NVIDIA V100 GPU 환경에서 배치 사이즈 6으로 30 에포크 동안 학습을 진행했으며, AdamW 옵티마이저와 1e-4의 학습률을 사용했다. 이러한 설정은 모델이 시각적 특징 추출 능력은 유지하면서 왜곡 관계 추론에만 집중할 수 있게 한다.
한계점
PANDA는 현재 왜곡 분석을 위한 최소한의 베이스라인 역할을 수행하며, 복잡한 지역 간의 상호작용을 처리하는 데 있어 개선의 여지가 있다. 또한 PandaSet의 품질 점수와 비교 레이블이 특정 IQA 모델(TOPIQ)의 결과에 의존하고 있어, 해당 모델의 편향이 데이터셋에 상속되었을 가능성이 존재한다. 대규모의 인간 주석 기반 지역별 비교 데이터셋 구축이 향후 과제로 남아 있다.
실무 활용
이미지 품질 평가 및 비교가 필요한 다양한 실무 환경에서 정밀한 분석 도구로 활용될 수 있다. 특히 MLLM의 시각적 추론 능력을 보완하는 중간 데이터 구조로 유용하다.
- 전자상거래 플랫폼의 상품 이미지 품질 자동 검수 및 비교 가이드 생성
- 사진 편집 소프트웨어에서 원본 대비 보정본의 왜곡 발생 지역 및 유형 자동 탐지
- 의료 영상(CT/MRI) 비교 분석 시 미세한 노이즈나 왜곡 발생 부위의 구조적 리포팅
- MLLM 기반 시각 에이전트의 정밀한 이미지 이해를 위한 구조적 컨텍스트 제공
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.