핵심 요약
실내 조명의 깜빡임과 카메라의 촬영 방식이 충돌하여 생기는 줄무늬 노이즈(플리커)를 제거하는 것은 매우 까다로운 작업이다. 이 논문은 플리커의 물리적 발생 원리인 주기성과 방향성을 인공지능 모델의 구조에 직접 설계해 넣어, 기존보다 훨씬 적은 연산량으로도 깨끗한 사진을 얻을 수 있게 해준다.
왜 중요한가
실내 조명의 깜빡임과 카메라의 촬영 방식이 충돌하여 생기는 줄무늬 노이즈(플리커)를 제거하는 것은 매우 까다로운 작업이다. 이 논문은 플리커의 물리적 발생 원리인 주기성과 방향성을 인공지능 모델의 구조에 직접 설계해 넣어, 기존보다 훨씬 적은 연산량으로도 깨끗한 사진을 얻을 수 있게 해준다.
핵심 기여
Flickerformer 아키텍처 제안
플리커의 물리적 특성인 주기성과 방향성을 딥러닝 모델 구조에 직접 반영한 최초의 Transformer 기반 버스트 복원 프레임워크이다.
PFM(Phase-based Fusion Module) 개발
주파수 영역의 위상 상관관계를 활용해 여러 프레임 간의 플리커 패턴을 정렬하고, 깨끗한 정보를 선택적으로 융합하여 잔상을 방지한다.
AFFN(Autocorrelation Feed-Forward Network) 도입
자기상관 함수를 통해 단일 프레임 내에 반복되는 주기적 구조를 포착하고 증폭시켜, 복잡한 플리커 패턴을 효과적으로 억제한다.
WDAM(Wavelet-based Directional Attention Module) 설계
웨이블릿 변환으로 플리커의 방향성 성분을 분리하고, 이를 어텐션 메커니즘의 가이드로 사용하여 복원 정밀도를 높이면서 연산량을 75% 절감한다.
핵심 아이디어 이해하기
플리커는 전등이 초당 수십 번 깜빡이는 주기성과, 카메라 센서가 위에서 아래로 한 줄씩 읽어 들이는 방향성이 결합되어 나타난다. 기존의 일반적인 이미지 복원 모델은 이런 특수한 기하학적 패턴을 고려하지 않고 전체 픽셀 간의 관계(Self-Attention)만 계산하려다 보니 효율이 떨어졌다. 이 논문은 주파수 영역에서 '위상(Phase)' 정보가 이미지의 뼈대와 구조를 결정한다는 점을 이용한다. 여러 장의 사진을 찍었을 때, 각 사진의 위상을 비교하면 플리커가 어느 위치에 어떤 주기로 나타나는지 수학적으로 정확히 파악할 수 있다. 또한, 플리커가 줄무늬 형태라는 점에 착안해 이미지를 가로, 세로 성분으로 쪼개어 분석하는 웨이블릿 변환을 도입했다. 이를 통해 모델이 플리커가 심한 특정 방향의 픽셀들을 더 집중해서 고치도록 유도하여 복원 성능을 비약적으로 향상시켰다.
방법론
PFM(Phase-based Fusion Module)은 입력된 여러 프레임에 FFT(고속 푸리에 변환)를 수행하여 주파수 성분을 추출한다. 기준 프레임과 참조 프레임 간의 위상 차이를 계산하는 연산을 통해 프레임 간의 구조적 불일치를 수치화하고, 이를 가중치 맵으로 변환하여 플리커가 없는 깨끗한 특징 위주로 정보를 융합한다. AFFN(Autocorrelation Feed-Forward Network)은 단일 프레임 내의 주기성을 포착하기 위해 Wiener-Khinchin 정리를 적용한다. 특징 맵의 주파수 크기 제곱에 역푸리에 변환을 취하는 과정을 통해 반복되는 줄무늬 패턴을 명확히 드러내고, 이를 학습 가능한 파라미터와 결합하여 주기적 왜곡을 효과적으로 억제한다. WDAM(Wavelet-based Directional Attention Module)은 Haar 웨이블릿을 사용하여 특징을 저주파(LL)와 수평(LH), 수직(HL), 대각(HH) 고주파 성분으로 분해한다. 수평/수직 성분을 결합해 만든 방향성 가중치 맵을 Attention 메커니즘의 Value 값에 곱해줌으로써, 플리커가 집중된 특정 방향의 픽셀들에 더 높은 가중치를 부여해 정밀하게 복원한다.
주요 결과
BurstDeflicker 데이터셋 실험 결과, PSNR 31.226 dB를 기록하며 기존 SOTA 모델인 AST(30.646 dB)를 0.580 dB 차이로 앞질렀다. SSIM(0.920)과 LPIPS(0.045) 지표에서도 가장 우수한 성능을 보였다. 효율성 측면에서 Flickerformer는 3.92M의 파라미터와 128.76G FLOPs를 사용하여, 성능이 낮은 다른 대형 모델보다 훨씬 가볍고 빠른 처리가 가능함을 입증했다. 정성적 평가에서도 기존 모델들이 과노출 영역에서 색상 왜곡을 일으키거나 잔상을 남기는 것과 달리, 미세한 질감과 색상을 보존하면서 플리커만 깨끗하게 제거하는 결과를 보여주었다.
기술 상세
전체 아키텍처는 3단계 계층 구조를 가진 비대칭 U-Net 형태의 Transformer이다. 인코더에서는 AFFN을 통해 주기적 특징을 강화하고, 디코더에서는 WDAM을 통해 방향성 정보를 활용한 정밀 복원을 수행한다. PFM은 주파수 도메인에서의 Phase Correlation이 공간 도메인의 Convolution과 수학적으로 대응된다는 점을 활용하여, 별도의 복잡한 정렬 알고리즘 없이도 프레임 간 특징을 효과적으로 정렬하고 융합한다. WDAM은 Haar Wavelet 기반의 분해를 통해 Window-based Attention의 연산 범위를 저주파 대역으로 한정함으로써, 전체 연산량과 메모리 사용량을 약 75% 절감하면서도 고주파 방향성 정보를 복원에 반영하는 효율적인 구조를 채택했다.
한계점
깨끗한 영역이 버스트 프레임 전체에서 소실된 대규모 광원 소멸 상황에서는 부분적인 복구만 가능하다.
실무 활용
실내 조명 아래에서 촬영된 사진이나 동영상의 줄무늬 노이즈를 제거하는 실무 도구로 활용 가능하다. 특히 스마트폰 카메라의 야간 모드나 고속 촬영 시 발생하는 플리커 현상을 개선하는 데 직접적인 도움이 된다.
- 스마트폰 카메라 앱의 사진/동영상 플리커 제거 필터
- CCTV 영상의 조명 깜빡임 보정
- 실내 스포츠 중계 영상의 화질 개선
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.