M2Retinexformer: 멀티-모달 Depth/Luminance/Semantic 정보를 활용한 저조도 이미지 향상용 Retinexformer 확장

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

저조도 이미지 향상은 RGB 정보만으로는 노이즈 억제와 색상 보정이 충분치 않다. Depth는illumination에 민감하지 않는 기하 정보를 제공하고, luminance 및 semantic features는 밝기 분포와 객체 경계를 보존하는 지침을 제공한다. Cross-attention 기반의 멀티모달 융합과 adaptive gating은 이질적 모달리티를 효과적으로 조합해 Retinexformer의 한계를 극복한다.

왜 중요한가

저조도 이미지 향상은 RGB 정보만으로는 노이즈 억제와 색상 보정이 충분치 않다. Depth는illumination에 민감하지 않는 기하 정보를 제공하고, luminance 및 semantic features는 밝기 분포와 객체 경계를 보존하는 지침을 제공한다. Cross-attention 기반의 멀티모달 융합과 adaptive gating은 이질적 모달리티를 효과적으로 조합해 Retinexformer의 한계를 극복한다.

핵심 기여

MMCAB 기반 멀티모달 융합

RGB feature Fin과 보조 모달리티 Fm을 cross-attention으로 융합하여 저조도에서의 정보 교환을 가능하게 한다. 또한 illumination-guided Self-Attention과 교차-attention의 출력을 게이트(gating)로 결합해 모듈별 신뢰도에 따라 정보를 반영한다.

Modality Extractor 및 멀티-스케일 특징 주입

Depth, Luminance, Semantic Features를 다중 스케일에서 추출하고 Fin과 같은 해상/채널로 정렬해 MMCAB에 공급한다. 이를 통해 다양한 모달리티 정보를 재활용하는 구조를 갖춘다.

Adaptive Gating

gm과 gf라는 학습 가능한 게이트로 cross-attention과 illumination-guided self-attention의 기여를 모달리티 신뢰도에 따라 조정한다.

Progressive Refinement

τ ∈ {1,2,3}의 다단 보정 스테이지를 통해 점진적으로 개선하며, 모달리티 피처를 한 번만 추출하고 재사용해 계산 비용을 절감한다.

Perceptual Loss를 포함한 학습 목표

L = L1 + λper Lper를 사용해 구조적 정보를 보존하고 고수준 텍스처를 유지한다.

핵심 아이디어 이해하기

:[

기술 상세

Overall, M2Retinexformer는 Retinexformer의 ORF를 확장한다. Illumination Estimator E는 입력 I와 luminance prior Lp를 받아 Ilu와 Flu를 산출하고, Restorer R은 Ilu와 Flu를 이용해 최종 이미지 Ien을 생성한다. Modality Extractor는 Depth, Luminance, Semantic Features를 다중 스케일(s ∈ {0,1,2})에서 추출하고 Fin에 맞춘 F^s_m로 정렬한다. MMCAB는 Fin과 F^s_m를 scale s에서 cross-attention으로 융합하며, Self-Attn은 V ⊙ Flu를 이용한 Illumination-Guided 방식으로 작동한다. Am = softmax(QK^T / sqrt(C′)) Vm 형태의 cross-attention을 통해 각 모달리티 정보를 얻고, S = softmax(QK^T / sqrt(C′)) (V ⊙ Flu) 형태의 Self-Attn을 통해 RGB 피처를 보정한다. U = ∑_m gm ⊙ Am, gm = σ(WmX + bm)로 모달리티 신뢰도에 따른 가중치를 적용하고, Output = gf ⊙ S + (1−gf)⊙U, gf = σ(WfX + bf)으로 Self-Attn과 Cross-Attn의 균형을 조정한다. F′ = Fin + MMCAB(LN(Fin), Flu, {Fm}) 및 Fout = F′ + FFN(LN(F′))로 다중 계층을 잇는다. L1 외에 VGG-19 perceptual loss Lper를 도입해 고수준 구조를 보존한다. 파라미터 수는 2M trainable, 총 48M으로 Depth-Anything-V2와 DI‑NOV3 엔코더를 고정한다. LOL-v1/LOL-v2/SID/SMID/SDSD 등 7개 벤치마크에서 M2Retinexformer는 대다수 데이터셋에서 최상 또는 차상 성능을 달성한다.

한계점

모달리티의 신뢰도에 따라 이점이 좌우되며, 보조 특징이 불안정하면 성능 향상이 감소할 수 있다.

실무 활용

M2Retinexformer은 MMCAB를 중심으로 depth/Luminance/semantic 모달리티를 RGB 피처와 교차-attention으로 융합하는 멀티모달 Retinexformer 확장이다. 기존 Retinexformer 대비 여러 모달리티의 보완 정보를 활용해 저조도 이미지 품질을 개선한다.

저조도 환경의 사진/비디오 향상 파이프라인에 모달리티 보강을 적용
멀티-모달 priors를 추가로 포함해 자연스러운 색상 및 디테일 보존 강화
Depth 기반 기하 정보와 semantic context를 이용한 객체 경계 보정
높은 수준의 텍스처 유지와 노이즈 제거를 동시에 달성하는 프레임워크로의 응용

코드 공개 여부: 공개

코드 저장소 보기

키워드

Retinexformermulti-modalcross-attentionadaptive gatingdepth estimationluminance priorssemantic featuresprogressive refinement