EfficientNet과 주파수 도메인 분석을 결합한 딥페이크 탐지 시스템

핵심 요약

EfficientNet-B4의 시각적 특징과 FFT/DCT 기반 주파수 분석을 결합하여 고화질 딥페이크의 미세한 왜곡을 탐지하는 25M 파라미터 규모의 모델을 개발했다.

배경

대학 프로젝트의 일환으로 기존 픽셀 중심 탐지기의 한계를 극복하기 위해 시각적 특징과 주파수 도메인 특징을 동시에 활용하는 딥페이크 탐지 모델을 개발하고 GitHub에 공개했다.

의미 / 영향

이 프로젝트는 딥페이크 탐지에서 멀티모달(공간+주파수) 접근법의 유효성을 입증했다. 특히 설명 가능한 AI(XAI) 기법인 GradCAM을 적용하여 모델의 신뢰성을 높인 점이 실무적으로 중요한 시사점을 준다.

커뮤니티 반응

대학 프로젝트임에도 불구하고 구체적인 아키텍처와 소스 코드를 공유하여 긍정적인 반응을 얻고 있으며, 향후 Celeb-DF나 DFDC 데이터셋에 대한 교차 검증 가능성에 관심이 모이고 있다.

주요 논점

01찬성다수

주파수 도메인 분석을 결합하는 것이 고화질 딥페이크 탐지에 필수적이다.

합의점 vs 논쟁점

합의점

시각적 특징과 주파수 특징의 융합이 탐지 정확도를 높인다
GradCAM을 통한 모델 판단 근거 시각화가 유용하다

논쟁점

FaceForensics++ 외에 Celeb-DF 등 다른 데이터셋에서의 일반화 성능 검증이 필요하다

실용적 조언

딥페이크 탐지 시 픽셀 정보뿐만 아니라 DCT를 통한 압축 아티팩트 분석을 병행할 것
YOLOv11n을 활용한 전처리로 얼굴 검출 효율을 높일 수 있음

전문가 의견

주파수 도메인의 스펙트럼 불일치는 생성 모델이 완벽히 숨기기 어려운 물리적 흔적이다

언급된 도구

EfficientNet-B4추천

시각적/공간적 특징 추출 백본

YOLOv11n추천

학습 데이터 전처리를 위한 얼굴 검출

FaceForensics++중립

딥페이크 탐지 학습용 데이터셋

섹션별 상세

모델 아키텍처는 시각적 특징을 추출하는 EfficientNet-B4와 주파수 특징을 추출하는 모듈의 이중 스트림 구조로 설계됐다. EfficientNet은 ImageNet으로 사전 학습된 1792차원 출력을 생성하며, 주파수 모듈은 FFT와 DCT를 통해 각각 512차원 벡터를 추출한 뒤 MLP를 통해 1024차원으로 융합한다. 최종적으로 두 스트림의 출력을 결합한 2816차원 벡터를 분류기에 전달하며, 전체 파라미터 수는 약 2,500만 개 수준이다.

데이터셋 구축을 위해 FaceForensics++(C23)를 활용하여 Face2Face, FaceSwap 등 다양한 딥페이크 기법이 적용된 영상을 분석했다. YOLOv11n 모델을 사용해 얼굴 영역을 검출하고 초당 1프레임씩 추출하여 총 71만 6천 장의 학습 이미지를 확보했다. RTX 3090 환경에서 AdamW 옵티마이저와 코사인 어닐링 스케줄러를 적용해 7 에포크 동안 약 4시간의 학습을 진행했다.

실험 결과 시각적 특징만 사용하는 것보다 주파수 도메인 정보를 융합했을 때 고화질 딥페이크 탐지 성능이 유의미하게 향상됐다. 특히 DCT 특징은 압축 과정에서 발생하는 미세한 아티팩트를 포착하는 데 효과적이며, 이는 실제 환경의 압축된 영상 탐지에 유리하다. GradCAM을 통해 모델이 주로 얼굴의 경계선이나 턱선 등 합성 흔적이 남기 쉬운 부위에 집중하고 있음을 시각적으로 확인했다.

실무 Takeaway

EfficientNet-B4와 FFT/DCT 주파수 분석을 결합한 이중 스트림 아키텍처로 탐지 성능을 강화했다.
GradCAM을 통합하여 모델이 얼굴의 어느 부위(주로 경계선 및 턱선)를 보고 판단하는지 시각화했다.
주파수 도메인 분석은 픽셀 수준에서 식별하기 어려운 고화질 딥페이크의 압축 흔적을 찾는 데 효과적이다.

언급된 리소스

GitHubVeridisQuo GitHub Repository