TL;DR
현대 생성 모델은 이미지의 글로벌 semantics에 의존하는 탐지기가 국소적이고 희박한 포렌식 신호를 놓칠 수 있다. Patch Forensic Signature(PFS)를 도입해 patch 단위 표현을 포렌식 공간으로 재매핑하고, Maximum Mean Discrepancy(MMD)로 patch-레벨 분포 차이를 누적하면, 실제 이미지와 AI생성 이미지 간의 분포 차이를 보다 안정적으로 포착할 수 있다. 이 접근은 다양한 생성 모델에 대해 일반화되고, 미세한 artefact가 분포 차이로 축적되어 최종 탐지 성능이 개선된다.
왜 중요한가
현대 생성 모델은 이미지의 글로벌 semantics에 의존하는 탐지기가 국소적이고 희박한 포렌식 신호를 놓칠 수 있다. Patch Forensic Signature(PFS)를 도입해 patch 단위 표현을 포렌식 공간으로 재매핑하고, Maximum Mean Discrepancy(MMD)로 patch-레벨 분포 차이를 누적하면, 실제 이미지와 AI생성 이미지 간의 분포 차이를 보다 안정적으로 포착할 수 있다. 이 접근은 다양한 생성 모델에 대해 일반화되고, 미세한 artefact가 분포 차이로 축적되어 최종 탐지 성능이 개선된다.
핵심 기여
Patch Forensic Signature(PFS) 도입
semantic variation을 억제하고 생성 아티팩트를 증폭시키는 학습 가능한 포렌식 공간으로 patch embedding ei(x)를 맵핑하는 ϕθ를 도입한다. 이로써 patch 수준의 신호가 semantics에 의해 희석되는 현상을 감소시킨다.
MDMF 프레임워크 제안
PFS 공간에서 테스트 이미지의 patch 표현 Zθ(x) 간 분포 차이를 MMD를 통해 측정하고, 이를 이미지 수준의 탐지 점수로 합산한다. 이로써 희박한 지역적 신호를 안정적으로 결합한다.
이론적 근거
Propositions 2.4–2.6, Theorem 2.7을 통해 patch 단위의 신호 증폭이 글로벌 풀링 대비 실질적인 분리 성능으로 이어짐을 보이고, finite-sample에서의 집중성을 보장한다.
실험적 일반화
ImageNet, LSUN-Bedroom, GenImage, WildRF, LDMFakeDetect 등 다양한 벤치마크에서 제안 기법의 강건성과 일반화를 검증했다. OpenSora 비디오 사례 연구에서도 강건성을 보인다.
핵심 아이디어 이해하기
단락1: 기존 탐지는 이미지 전체를 하나의 벡터로 요약하는 글로벌 이미지 수준의 분류에 의존하는 경향이 있어, 생성 모델이 남긴 국소적이고 미세한 아티팩트를 무시하는 편향이 생긴다. 이로 인해 semantic 정보가 탐지 신호를 지배하고 Artifacts의 분포 차이가 약화될 수 있다. 단락2: Patch Forensic Signature(PFS)는 EI(x)와 같은 patch 임베딩을 forensic 공간 d차원으로 매핑하는 학습된 프로젝션 ϕθ를 통해 패치 간의 의미 정보를 감소시키고, 생성 아티팩트의 통계적 차이를 강조한다. 단락3: MD MF는 패치 단위 신호의 분포 차이를 모아 MMD로 측정하고, 이를 통해 패치-수준 신호를 이미지-수준 탐지로 안정적으로 합산한다. 이 구조는 국소적 신호가 충분히 존재할 때 글로벌 합산보다 분리성이 크게 증가함을 보인다. 단락4: patch granularity의 중간값(W=32)이 최적의 균형을 형성하고, 백본 변화나 post-processing에도 견고한 성능을 유지한다. 패치 기반 분포 비교는 공격의 domain-shift에도 강인하다.
관련 Figure

Label Inversion 테스트 등에서 Global Detection이 semantic cue에 의존하는 문제를 시각적으로 보여주며, PFS+MD MF의 견고성을 보완한다.
글로벌-대-MDMF 분포 탐지 비교 및 Patch Forensic Signature의 이점에 대한 시각적 요약.
방법론
단락1: 실험 파이프라인의 개요. DINOv2를 패치 임베딩의 기초 표본으로 사용하고, 이미지당 K개의 패치를 얻은 뒤 PFS로 매핑한다. Patch 수는 W에 의해 결정되며, K는 이미지 해상도와 패치 크기에 좌우된다.
관련 Figure

MDMF 구성 요소(PFS, MMD)의 관계를 한 눈에 보여주며, patch 단위 신호를 어떻게 이미지-수준 탐지로 연결하는지 설명한다.
MDMF 프레임워크의 흐름을 보여주는 도식. Patch Forensic Signature를 통해 patch 단위 표현을 forensic 공간으로 매핑하고, MMD로 분포 차이를 측정한다.
주요 결과
주요 벤치마크에서 우수한 성능을 달성한다. 예: ImageNet에서 MD MF는 다양한 발진기(Diffusion, GAN, AR)에서 뛰어난 AUROC/AP를 기록했다. 예시로 q=100 JPEG에서 MD MF AUROC=95.65, AP=97.07 등으로 보고된다. 또한 OpenSora 사례에서도 강건한 탐지를 보였다.
관련 Figure

패치별 활성화가 생성 이미지를 대상으로 국소 아티팩트를 강조하고, 정상 이미지에서는 분포 차이가 줄어드는 현상을 보여준다.
MDMF와 Global Baseline의 heatmap 비교를 통한 국소 포렌식 신호의 시각화.
기술 상세
단락1: Patch Tokenization 및 PFS 정의. x ∈ R^(H×W×C)에서 E(x) = {ei(x)}^K_i=1를 이용해 K개의 patch embedding을 얻고, zi(x) = ϕθ(ei(x)) ∈ R^d로 매핑한다. 단락2: MMD 정의 및 학습. S_P = {x_i} ∼ P, S_Q = {y_j} ∼ Q에 대해 MMD^2_u(S_P,S_Q;k_ω) = 1/(N(N-1)) Σ Hij로 정의하고, k_ω는 Gaussian 커널. J_λ(ω) = MMD^2_u / sqrt(σ^2_H1) + λ를 최대화하도록 ω를 학습한다. 단락3: 검출 프로토콜. S_ref(real)에서 Zθ를 구성하고, 테스트 샘플 ỹ에 대해 SMDMF(ỹ) = MMD^2_b(S_ref, {ỹ}; k_ω*)를 계산한 뒤 임계 τ를 넘으면 Generated으로 판단한다. 단락4: 이론적 근거. Propositions 2.4–2.6, Theorem 2.7은 PFS가 국지적 Defect를 증폭하고, finite-sample에서의 MMD 분리 및 탐지 성능 보장을 제공함을 보여준다. 단락5: 구현/학습 세부사항. ViT-L/14 기반의 DINOv2 파생 백본, PFS 차원 d, 패치 크기 W=32, 학습 25에폭, AdamW 최적화, γ 및 θ를 함께 최적화한다.
한계점
Limitations 포함: 레퍼런스(real) 세트 의존성으로 test-time에서 실제 이미지 레퍼런스가 필요하다. 또한 고도화된 공격이나 극단적 도메인 시나리오에서 성능 저하가 발생할 수 있으며, 패치 수(K)의 최적값은 finite-sample 및 defect strength에 따라 달라진다. JPEG/블러/노이즈 같은 강한 후처리의 경우 모든 탐지기가 약화될 수 있다.
실무 활용
MDMF는 패치 수준의 포렌식 신호를 분포 차이로 통합해 실제 AI 생성 이미지 탐지에서 높은 일반화와 견고성을 제공한다. 레퍼런스 실사용 시나리오에 적합하다.
- 대규모 온라인 플랫폼의 AI 생성 이미지 탐지 시스템에 적용
- 다양한 생성 모델 간의 일반화 평가 및 모니터링
- 법의학/디지털 포렌식에서 표본-대조군 비교에 활용
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.