왜 중요한가
이미지 품질 평가(IQA)는 수십만 개의 인간 주관적 점수가 필요해 비용이 매우 많이 듭니다. SHAMISA는 데이터 자체의 구조와 왜곡 정보를 활용하는 자기지도 학습을 통해, 별도의 인간 라벨 없이도 다양한 환경에서 작동하는 고성능 품질 측정 모델을 구축할 수 있게 합니다.
핵심 기여
SHAMISA 프레임워크 제안
왜곡 정보와 콘텐츠 정보를 공유 표현 공간에 통합 인코딩하는 비대조(Non-contrastive) 자기지도 학습 방식을 도입하여 라벨 없는 데이터로부터 품질 인지 능력을 학습한다.
구성적 왜곡 엔진(Compositional Distortion Engine) 개발
연속적인 파라미터 공간에서 24가지 왜곡 함수를 조합하여 무수히 많은 품질 저하 시나리오를 생성하고, 이를 통해 미세한 품질 변화에 대한 모델의 민감도를 높인다.
이중 소스 관계 그래프(Dual-source Relation Graphs) 활용
왜곡 메타데이터 기반의 그래프와 특징 공간의 구조적 유사성 기반 그래프를 결합하여, 학습 과정에서 이미지 간의 복잡한 품질 관계를 명시적으로 가이드한다.
범용적 성능 및 일반화 능력 입증
6개의 주요 NR-IQA 벤치마크에서 기존 자기지도 학습 모델들을 뛰어넘는 평균 성능을 달성했으며, 특히 학습하지 않은 데이터셋에 대한 제로샷 전이 성능에서 탁월한 결과를 보였다.
핵심 아이디어 이해하기
기존의 이미지 품질 평가 모델은 '이 사진은 몇 점'이라는 정답지가 대량으로 필요했습니다. 하지만 SHAMISA는 정답지 대신 '이 사진은 저 사진보다 노이즈가 조금 더 많으니 품질이 이만큼 더 낮을 것이다'라는 상대적인 관계를 스스로 깨닫게 하는 데 집중합니다. 이는 딥러닝의 Embedding 개념을 활용하여, 품질이 비슷한 이미지는 가깝게, 왜곡이 심해질수록 멀어지게 배치하는 원리입니다.
이 과정에서 핵심은 단순히 '같다/다르다'를 구분하는 것이 아니라, 왜곡의 종류와 강도에 따른 '구조적 연관성'을 그래프 형태로 정의하는 것입니다. 모델은 이 그래프를 이정표 삼아 이미지의 내용(Content)과 망가진 정도(Distortion)를 동시에 이해하게 됩니다. 결과적으로 인간의 개입 없이도 이미지의 시각적 품질을 수치화할 수 있는 능력을 갖추게 됩니다.
이러한 방식은 기존의 Contrastive Learning이 가졌던 샘플링 편향 문제를 해결합니다. 단순히 무작위로 샘플을 비교하는 대신, 정교하게 설계된 왜곡 엔진을 통해 생성된 이미지들 사이의 논리적 거리를 학습함으로써 모델이 품질의 미세한 차이를 더 정확하게 포착할 수 있게 됩니다.
방법론
Compositional Distortion Engine은 24가지 원자적 왜곡 함수를 7개 카테고리로 분류하여 무한한 조합을 생성한다. [원본 이미지 x와 왜곡 파라미터 λ 입력 → 순차적인 함수 합성 f_M ∘ ... ∘ f_1 수행 → 왜곡된 이미지 출력 → 다양한 품질 저하 궤적 형성]. 이 엔진은 단일 요인 변화(Single-factor variation) 전략을 사용하여 특정 왜곡의 효과를 독립적으로 학습할 수 있게 한다.
Dual-source Relation Graphs는 메타데이터 기반 그래프(G_rd, G_dd, G_rr)와 특징 공간 기반 그래프(G_k, G_o)를 생성한다. [이미지 쌍의 왜곡 차이 또는 특징 유사도 입력 → 지수 함수 exp(-κu) 연산 수행 → 0에서 1 사이의 관계 가중치 산출 → 이미지 간의 암시적 구조적 연관성 정의]. 이 그래프들은 Hypernetwork Φ를 통해 동적으로 결합되어 최종적인 관계 행렬 G를 형성한다.
Graph-weighted VICReg는 VICReg의 손실 함수를 그래프 기반으로 확장한다. [임베딩 벡터 Z와 관계 행렬 G 입력 → Σ G_ij ||Z_i - Z_j||^2 연산 수행 → 그래프 가중치에 비례한 불변성 손실 산출 → 관계가 깊은 쌍일수록 임베딩 공간에서 가깝게 위치하도록 가중치 갱신]. 이를 통해 모델은 단순한 이진 분류를 넘어 연속적인 품질 변화를 학습한다.
주요 결과
합성 왜곡 데이터셋인 LIVE, CSIQ, TID2013에서 SRCC 기준 각각 0.986, 0.981, 0.904를 기록하며 기존 SSL 기반 SOTA 모델들을 모두 제쳤다. 특히 KADID-10K에서는 0.922의 높은 성능을 보이며 합성 왜곡에 대한 강력한 인지 능력을 입증했다.
실제 환경(In-the-wild) 데이터셋인 FLIVE와 SPAQ에서도 각각 0.610, 0.914의 SRCC를 달성하여, 통제된 실험실 데이터뿐만 아니라 실제 스마트폰 사진 등 복잡한 환경에서도 모델이 잘 작동함을 확인했다. 6개 데이터셋 평균 SRCC는 0.886으로 비교 대상 중 가장 높았다.
교차 데이터셋 전이(Cross-dataset Transfer) 실험에서는 12개 시나리오 중 9개에서 최고 성능을 기록했다. 이는 SHAMISA가 특정 데이터셋의 특성에 과적합되지 않고, 이미지 품질이라는 보편적인 특징을 효과적으로 학습했음을 시사한다. Ablation Study를 통해 Optimal Transport(OT) 기반의 전역 구조 학습이 성능 향상에 가장 큰 기여를 함을 확인했다.
실무 활용
SHAMISA는 라벨링 비용 없이 대규모 미정제 데이터를 활용해 고성능 품질 평가 모델을 구축할 수 있는 실무적 대안을 제시합니다. 특히 새로운 도메인의 이미지가 대량으로 발생하는 환경에서 유용합니다.
- 동영상 스트리밍 서비스의 실시간 화질 모니터링 및 비트레이트 최적화
- 생성 AI(Diffusion 모델 등)가 생성한 이미지 중 품질이 낮은 결과물을 자동 필터링
- 스마트폰 갤러리 앱에서 흔들림이나 노이즈가 심한 사진을 자동으로 분류 및 추천
- 이미지 복원(Restoration) 알고리즘의 성능을 평가하기 위한 객관적 지표로 활용
기술 상세
SHAMISA의 아키텍처는 ImageNet으로 사전 학습된 ResNet-50을 백본으로 사용하며, 학습 시에는 2-layer MLP 프로젝터를 연결하여 임베딩 공간 Z를 형성한다. 추론 시에는 프로젝터를 제거하고 백본의 특징 H 위에 간단한 Linear Regressor를 학습시켜 품질 점수를 예측한다.
핵심 메커니즘인 Graph-weighted SSL Objective는 VICReg의 분산(Variance) 및 공분산(Covariance) 정규화 항을 유지하면서, 기존의 단순 쌍(Pair) 기반 불변성 항을 그래프 가중치 항으로 대체한다. 이는 임베딩 붕괴(Collapse)를 방지하면서도 그래프에 정의된 복잡한 관계를 보존하게 한다.
학습 과정에서는 Stop-gradient 기술을 관계 그래프 생성 단계에 적용하여, 그래프 구조가 업데이트되는 동안 모델 파라미터가 불안정하게 변하는 것을 방지한다. 또한 Sinkhorn-Knopp 알고리즘을 이용한 Optimal Transport(OT) 클러스터링 가이드를 도입하여 특징 공간의 전역적인 토폴로지를 정렬한다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.