MC-RFM: 혼합 곡률 리만 흐름 매칭을 통한 기하학 인지 소수샷 적응

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

다운스트림 시각 인식에서 클래스 간 계층 관계와 지역적 시각 변이가 모두 중요하게 작용한다. 기존의 Euclidean perturbation 위주 접근은 이러한 구조를 명시적으로 다루지 못했으나, MC-RFM은 하이퍼볼릭 공간의 계층 구조와 Euclidean 공간의 국소 변이를 결합한 곱 공간에서 연속적 transport를 학습함으로써 소수샷 적응의 표현 이동을 더 자연스럽게 모델링한다. Transformer 기반 백본에서 특히 큰 이점을 보이며, 파인-그레이드 데이터에서의 성능 향상에 기여한다.

왜 중요한가

다운스트림 시각 인식에서 클래스 간 계층 관계와 지역적 시각 변이가 모두 중요하게 작용한다. 기존의 Euclidean perturbation 위주 접근은 이러한 구조를 명시적으로 다루지 못했으나, MC-RFM은 하이퍼볼릭 공간의 계층 구조와 Euclidean 공간의 국소 변이를 결합한 곱 공간에서 연속적 transport를 학습함으로써 소수샷 적응의 표현 이동을 더 자연스럽게 모델링한다. Transformer 기반 백본에서 특히 큰 이점을 보이며, 파인-그레이드 데이터에서의 성능 향상에 기여한다.

핵심 기여

MC-RFM 제안

mixed-curvature Riemannian flow-matching 프레임워크를 도입해 frozen visual backbone의 소수샷 적응을 task-conditioned 연속 transport로 재구성한다.

상호작용적 모듈 설계

하이퍼볼릭-유클리드 곱 공간에서의 특징 표현, 프로토타입 쉐링, 적응 게이팅, 그리고 태스크 컨텍스트로 벡터 필드를 조건부로 조정하는 모듈을 설계한다.

혼합 곡률 기반 헤드

프로토타입-거리 기반 헤드와 차상 선형 헤드를 혼합하는 하이브리드 분류기로 transported 표현에 따라 예측 방식을 조정한다.

광범위한 실험

일곱 벤치마크, 다섯 개 frozen backbones, 1/4/16-shot에서 평가해 Transformer 백본과 fine-grained 데이터에서 strongest gains를 확인한다.

ablation 및 안정성 분석

mixed curvature, adaptive gating, shrinkage, task conditioning 및 discriminative supervision의 결합이 성능 향상에 기여함을 실험적으로 입증한다.

핵심 아이디어 이해하기

단계적 구성 요소를 통해 소수샷 적응 문제를 두 축으로 바라본다. 첫째, 시각 클래스는 계층 구조를 가지므로 하이퍼볼릭 공간에서 전역 구조를 표현하는 것이 유리하다. 둘째, 클래스 간 차이를 포착하는 국소 변이는 유클리드 공간에서 더 잘 표현된다. 셋째, 이 두 공간을 하나의 product manifold으로 결합하고, task-conditioned vector field로 이들 사이를 연속적으로 transport한다. 넷째, 벡터 필드는 hyperbolic과 Euclidean 두 가지 브랜치를 각각 다르게 학습하고, adaptive gating으로 샘플별로 두 브랜치의 기여를 조절한다. 다섯째, 분류기는 프로토타입 기반 부분과 선형 분류기 부분을 혼합한 하이브리드 헤드로 예측을 수행해 지원 데이터의 노이즈에 대해 강건하게 동작한다.

방법론

입력: 고정된 fψ(backbone)에서 추출된 h를 두 브랜치로 축소한다. 출력: z = (zh, ze)로 구성된 mixed-curvature 상태를 얻고, z를 이용해 zt 경로를 따라 프로토타입으로 transport한다. [어떤 값을 입력으로] → [지정된 하이퍼볼릭 경로와 선형 경로를 따라] → [혼합 곡률 product 공간의 zt를 얻는다]. zt에 대해 vθ(zt, t, cS)를 계산해 ODE를 적분하고, zT에서 프로토타입-헤드와 선형 헤드를 결합한 로짓을 계산한다. 손실은 flow matching 손실 LFM과 교차 엔트로피 손실 LCE의 합으로 정의되며, zT를 이용해 예측 ŷ를 얻는다. 이때 hyperbolic 입력은 원점 차트에서 logc0를 사용하고, 시간 임베딩 ϕ(t)와 task context cS를 함께 네트워크에 주입한다. 학습 시 샘플마다 z0에서 z1까지의 경로를 샘플링하고, u⋆h(t), u⋆e(t)로 목표 속도를 정의하여 vθ를 학습한다. 인퍼런스는 support에서 prototypes 재계산, query를 M으로 매핑하여 낮은 NFE의 ODE를 풀이하고, 하이브리드 헤드로 분류한다.

주요 결과

주요 벤치마크에서 MC-RFM이 대부분의 설정에서 최상위를 차지한다. 예를 들어 4-shot 설정에서 CIFAR-10 ResNet-50의 경우 Euclidean 63.19±1.12, Hyperbolic 63.88±0.99, MC-RFM 64.19±1.27로 +0.31pp 이득이다. CIFAR-10 ViT-B/16의 4-shot에서 78.20±3.16, 81.24±2.93, 81.28±3.11로 +0.04pp 이득이다. DTD ViT-B/16의 4-shot에서 48.44±0.62, 48.05±0.50, 48.71±0.51로 +0.27pp 이득이며, EuroSAT ViT-B/16의 4-shot에서 61.33±3.79, 62.06±3.42, 63.76±4.68로 +1.70pp 이득이다. FGVC Aircraft ViT-B/16의 4-shot에서 12.92±1.04, 11.06±0.57, 13.15±1.02로 +0.23pp 이득이며, Food-101 ResNet-50의 4-shot에서 31.18±0.49, 26.00±0.63, 32.77±0.49로 +1.59pp 이득이다. 16-shot에서도 ViT 기반에서 MC-RFM이 대체로 우수한 성능을 보이고, 16-shot 다수 데이터에서 평균적으로 1% 이상 이득을 준다.

기술 상세

아키텍처: M = Dhc × Rede로 구성된 product manifold에서 z = (zh, ze)로 표현한다. 하이퍼볼릭 브랜치는 expc0를 통해 구속된 상태를 갖고, 유클리드 브랜치는 LN으로 정규화된다. 태스크 컨텍스트 cS는 프로토타입 간 거리와 브랜치 노름 등을 포함하는 요약 벡터다. 학습 목표는 LFM과 LCE의 합으로, zT까지 벡터 필드를 적분해 분류를 수행한다. z0에서 zt까지의 경로는 hyperbolic geodesic interpolation과 Euclidean linear interpolation으로 구성되며, u⋆h(t), u⋆e(t)는 origin chart에서의 목표 속도로 정의된다. 어댑티브 게이팅은 샘플별 hyperbolic/euclidean 브랜치의 기여를 g으로 조절하고 mh, me로 분기한다. 분류기는 프로토타입 기반 로짓과 선형 로짓을 가중합하는 하이브리드 방식으로 동작하며, β로 샘플의 브랜치 의존성을 조정한다. 안정성은 c와 NFE, dh/de 비율에 따른 민감도 분석 및 수치 진단으로 확인된다.

실무 활용

프레임워크는 frozen backbone의 특징을 geometry-aware transport로 재배치해 소수샷 분류를 수행하므로, 파인튜닝 없이도 빠르게 도메인 적응이 가능하다. Transformer 계열에서 특히 강건한 성능 향상을 기대할 수 있다.

Transformer 기반 CV 모델의 파인튜닝 없이 도메인 적응
낮은 샷 수에서의 fine-grained 분류 문제의 성능 향상
프레이밍된 프런트엔드 피처를 재구성하는 온-에지(or 모바일) 적응
Prototypical-헤드와 linear-head의 혼합 분류기로 다양한 다운로드 데이터에 적용

코드 공개 여부: 공개

코드 저장소 보기

키워드

mixed-curvature representations(혼합 곡률 표현)Riemannian flow matching(리만 흐름 매칭)hyperbolic geometry(하이퍼볼릭 기하학)few-shot adaptation(소수샷 적응)frozen backbone(고정 백본)prototype-linear classifier(프로토타입-선형 분류기)task-conditioned transport(태스크 조건부 전송)