DA-Flow: 확산 모델을 활용한 열화 인지 광학 흐름 추정

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존 광학 흐름 모델은 노이즈나 블러가 심한 실제 영상에서 성능이 급격히 저하되는 한계가 있다. 이 논문은 이미지 복원에 특화된 확산 모델의 내부 특징을 활용하여 영상이 심하게 손상된 상태에서도 사물의 움직임을 정확히 찾아내는 새로운 아키텍처를 제시하여 자율주행이나 보안 시스템의 강인성을 높인다.

왜 중요한가

핵심 기여

Degradation-Aware Optical Flow 작업 정의

실제 환경의 블러, 노이즈, 압축 아티팩트가 포함된 영상에서 정확한 픽셀 단위 대응점을 찾는 새로운 과제를 공식화하고 이를 해결하기 위한 벤치마크 환경을 구축함.

이미지 복원 확산 모델의 비디오 확장

정지 영상 복원 모델인 DiT4SR에 시공간 어텐션을 주입하는 Lifting 기법을 통해 프레임 간의 기하학적 연관성을 파악할 수 있는 비디오 인코더로 확장함.

하이브리드 특징 기반의 DA-Flow 아키텍처

확산 모델의 열화 인지 특징과 CNN의 세밀한 공간 특징을 결합한 하이브리드 표현을 생성하고, 이를 RAFT의 반복적 정제 프레임워크에 통합하여 정확도를 극대화함.

가상 정답 학습 전략 수립

실제 오염된 영상의 정답 데이터가 부족한 한계를 극복하기 위해 고화질 영상에서 추출한 흐름을 정답으로 사용하는 학습 파이프라인을 구축하여 성능 향상을 이끌어냄.

핵심 아이디어 이해하기

광학 흐름 추정은 두 프레임 사이의 픽셀 이동을 찾는 작업인데, 기존 모델은 깨끗한 데이터에 최적화되어 있어 노이즈가 섞이면 픽셀 간 유사도를 계산하는 Correlation 연산이 망가진다. 특히 블러나 압축 노이즈는 텍스처를 파괴하여 매칭할 근거 자체를 없애버리는 한계가 있다. 이미지 복원용 확산 모델은 오염된 입력에서 깨끗한 이미지를 생성하기 위해 이미지 내부의 열화 패턴과 구조적 정보를 이미 학습하고 있다. 연구진은 이 모델의 중간 특징이 열화에 강인한 기하학적 단서를 담고 있다는 점에 주목했다. 하지만 이미지 모델은 시간축 정보가 없어 프레임 간 움직임을 이해하지 못한다. 이를 해결하기 위해 여러 프레임의 토큰을 한꺼번에 처리하는 시공간 어텐션을 추가하여 모델이 프레임 사이의 대응 관계를 스스로 학습하게 만들었다. 결과적으로 복원 능력과 움직임 이해 능력을 동시에 갖춘 특징 추출기가 완성되어 극한의 오염 상황에서도 정확한 매칭이 가능해졌다.

방법론

전체 구조는 RAFT의 프레임워크를 따르되 특징 추출 단계에서 DiT4SR 기반의 확산 모델을 활용한다. DiT 구조의 각 레이어에 시공간 어텐션을 주입하여 프레임 간 독립적인 공간 정보를 유지하면서도 상호 작용이 가능하도록 설계했다. 확산 모델에서 추출한 쿼리와 키 특징을 DPT 헤드를 통해 업샘플링한다. [1/16 해상도의 특징 맵 → DPT 연산 → 1/8 해상도 복원] 과정을 거쳐 세밀한 경계 정보를 회복하며, 이를 기존 CNN 인코더의 특징과 채널 방향으로 결합한다. 결합된 하이브리드 특징을 바탕으로 Correlation Volume을 생성한다. [두 프레임의 특징 벡터 간 내적 → 4D 비용 볼륨 생성 → 유사도 맵 도출] 과정을 통해 픽셀 간 이동 가능성을 수치화하고, GRU 기반의 업데이트 연산자가 이를 반복적으로 정제하여 최종 광학 흐름을 출력한다.

주요 결과

Sintel 벤치마크에서 기존 SOTA 모델인 SEA-RAFT(EPE 10.185) 대비 약 32% 향상된 6.912 EPE를 기록했다. 특히 블러와 노이즈가 심한 환경에서 타 모델들이 움직임을 전혀 잡지 못할 때도 DA-Flow는 일관된 흐름을 복원하는 강인함을 보였다. Spring 데이터셋에서도 2.207 EPE를 달성하며 RAFT(3.944)나 FlowSeek(2.861)을 크게 앞질렀다. 1px, 3px, 5px 오차 범위 밖의 픽셀 비율 모두에서 가장 낮은 수치를 기록하여 실제 환경에서의 실용성을 입증했다. Ablation Study를 통해 확산 모델의 특징을 파인튜닝했을 때가 단순 추출했을 때보다 성능이 월등히 높음을 확인했으며, CNN 특징과 확산 특징을 결합했을 때 세밀한 물체 경계 표현력이 극대화됨이 확인됐다.

기술 상세

백본으로 MM-DiT 구조를 채택했다. 기존에는 프레임을 배치 축으로 처리하여 독립적으로 연산했으나, 이를 토큰 시퀀스로 재구성하여 모든 프레임의 공간 토큰이 서로를 참조하는 Full Spatio-temporal Attention을 구현했다. 확산 모델의 노이즈 제거 단계 중 특정 시점의 특징을 고정해서 쓰는 대신, 여러 단계에 걸쳐 안정적인 기하학적 정보를 제공하는 레이어(3, 13, 16, 17번 레이어)를 실험적으로 선정하여 특징을 추출한다. 학습 시에는 실제 오염된 영상의 정답 흐름을 얻기 어렵기 때문에 고화질 영상에 SEA-RAFT를 적용해 얻은 흐름을 가상 정답으로 사용한다. 입력 영상에는 Real-ESRGAN 기반의 열화 파이프라인을 적용해 모델이 오염된 입력과 깨끗한 정답 사이의 관계를 학습하도록 유도했다.

한계점

확산 모델을 백본으로 사용하기 때문에 추론 시 여러 단계의 Denoising 과정을 거쳐야 하며, 이는 기존의 가벼운 CNN 기반 모델들에 비해 연산 속도가 느리고 메모리 사용량이 많다는 단점이 있음.

실무 활용

저화질 CCTV, 블랙박스 영상, 심한 압축이 걸린 스트리밍 영상 등 열악한 환경에서 사물의 움직임을 분석해야 하는 실무 환경에 즉시 적용 가능하다.

저조도 및 악천후 환경의 자율주행 영상 분석
오래된 필름 영상의 복원 및 프레임 보간
심한 노이즈가 포함된 의료 영상 내 장기 움직임 추적
압축률이 높은 모바일 영상 기반의 행동 인식

코드 공개 여부: 공개

코드 저장소 보기

키워드

Optical Flow(광학 흐름)Diffusion Model(확산 모델)Image Restoration(이미지 복원)Spatio-temporal Attention(시공간 어텐션)Robustness(강인성)