재구성 가이드 슬롯 커리큘럼: 비디오 객체 중심 학습에서의 객체 과분할 문제 해결

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

비디오 AI가 하나의 물체를 여러 조각으로 오인하는 '과분할' 문제를 획기적으로 개선했다. 슬롯 개수를 점진적으로 늘리는 커리큘럼 방식과 구조 인지 손실 함수를 도입하여 복잡한 실제 영상에서도 객체 단위의 일관된 인식을 가능하게 함으로써 자율주행이나 로봇 시각 지능 발전에 기여한다.

왜 중요한가

핵심 기여

재구성 가이드 슬롯 커리큘럼 제안

최소한의 슬롯으로 시작해 재구성 오차가 높은 영역에만 전략적으로 새로운 슬롯을 추가하는 방식을 통해 초기 단계부터 객체 과분할을 원천적으로 방지한다.

구조 인지 재구성 손실 함수 도입

기존 MSE 손실에 SSIM(Structural Similarity)을 결합하여 객체의 경계와 로컬 대조 정보를 보존함으로써 슬롯이 더 선명한 세만틱 경계를 형성하도록 유도한다.

순환 추론 전략 개발

슬롯 표현을 전방향과 후방향으로 반복 전파하는 Cyclic Inference를 통해 문맥 정보가 부족한 초기 프레임에서도 안정적이고 일관된 객체 표현을 생성한다.

주요 벤치마크 SOTA 달성

YouTube-VIS에서 FG-ARI +6.8점, MOVi-C에서 +8.3점의 성능 향상을 기록하며 과분할 문제 해결 능력을 입증했다.

핵심 아이디어 이해하기

기존의 Slot Attention 모델은 학습 초기부터 많은 수의 슬롯을 할당받으면, 재구성 오차를 줄이기 위해 하나의 물체를 여러 슬롯이 나누어 담당하는 '과분할' 현상을 보인다. 이는 딥러닝 모델이 주어진 자원(슬롯)을 최대한 활용하여 픽셀 단위 오차를 줄이려는 본능적인 최적화 과정에서 발생한다.

SlotCurri는 이를 해결하기 위해 '처음에는 크게 보고 나중에 자세히 보는' 전략을 취한다. 처음에는 단 2개의 슬롯만 제공하여 모델이 배경과 전경 같은 굵직한 세만틱 그룹을 먼저 파악하게 강제한다. 이후 학습이 안정되면 재구성 오차가 여전히 높은 영역, 즉 아직 설명되지 않은 물체가 있는 곳에만 슬롯을 추가로 복제하여 할당한다.

이 과정에서 단순히 슬롯을 늘리는 것이 아니라, 기존 슬롯의 특징값에 적절한 노이즈를 섞어 '자식 슬롯'을 생성함으로써 기존에 잘 학습된 객체 표현은 유지하면서 새로운 세부 영역을 탐색하게 만든다. 결과적으로 모델은 하나의 객체를 하나의 슬롯으로 온전히 유지하면서도 장면 전체를 정밀하게 분해할 수 있게 된다.

방법론

Slot Curriculum은 가속화된 스케줄에 따라 슬롯 수 K를 증가시킨다. K_init=2에서 시작하여 각 단계 m마다 σ 파라미터와 2차 함수 형태의 증가량을 더해 슬롯 예산을 확장한다. 이는 모델이 초기에 거친 세만틱을 충분히 학습한 뒤 세밀한 분할 단계로 넘어가도록 설계된 것이다.

Slot Spawning 메커니즘은 재구성 오차를 기반으로 한다. 각 픽셀의 MSE 손실값에 슬롯별 디코딩 가중치 α를 곱하여 슬롯별 오차 δ를 계산한다. [픽셀 오차와 가중치 입력 → 가중합 연산 → 슬롯별 오차 δ 출력 → 오차가 큰 슬롯 식별]. 오차가 큰 슬롯은 복제 대상이 되며, 부모 슬롯의 임베딩에 인접 슬롯과의 거리에 비례하는 가우시안 노이즈를 더해 자식 슬롯을 초기화한다. [부모 임베딩과 거리 정보 입력 → 노이즈 추가 연산 → 새 슬롯 임베딩 출력 → 미학습 영역 집중 유도].

Structure-Aware Reconstruction Loss는 MSE와 3D-SSIM을 결합한다. 3x3x3 크기의 시공간 큐브를 슬라이딩하며 휘도, 대비, 구조적 유사도를 계산한다. [재구성된 패치와 원본 패치 입력 → SSIM 공식 연산 → 구조적 유사도 점수 출력 → 경계선 선명도 강화]. 최종 손실 함수는 MSE, 슬롯 간 대조 손실(SSC), SSIM 손실의 가중합으로 구성된다.

Cyclic Inference는 추론 시 프레임을 전방향으로 한 번 훑으며 문맥 정보를 쌓은 뒤, 다시 역방향으로 전파하여 초기 프레임의 슬롯 표현을 보정한다. [전체 프레임 슬롯 정보 입력 → 역방향 전파 연산 → 보정된 초기 슬롯 출력 → 시간적 일관성 확보]. 이 과정은 전체 추론 시간의 0.3%만 추가하면서도 초기 프레임의 품질을 크게 높인다.

주요 결과

YouTube-VIS 2021 데이터셋에서 FG-ARI 44.8점을 기록하여 기존 SOTA인 SlotContrast(38.0점) 대비 6.8점의 큰 향상을 보였다. mBO 지표에서도 35.5점으로 최고 성능을 달성했다. 이는 실제 환경의 복잡한 영상에서도 객체 분할 능력이 뛰어남을 의미한다.

합성 데이터셋인 MOVi-C와 MOVi-E에서도 각각 77.6점(+8.3), 83.7점(+0.8)의 FG-ARI를 기록했다. 특히 MOVi-C에서 슬롯 수를 11개에서 15개로 늘렸을 때 기존 모델은 과분할로 인해 성능이 급락(69.3 → 61.8)한 반면, SlotCurri는 안정적인 성능(77.6 → 74.8)을 유지하여 슬롯 과잉 할당에 대한 강건함을 증명했다.

Ablation Study 결과, 커리큘럼 학습만으로도 FG-ARI가 36.1에서 42.6으로 상승했으며, 여기에 구조 손실과 순환 추론을 모두 더했을 때 최적의 성능인 44.8점에 도달했다. 과분할 정도를 측정하는 DOF 지표는 1.38에서 1.26으로 낮아져, 하나의 객체가 여러 슬롯으로 쪼개지는 현상이 실질적으로 감소했음을 확인했다.

기술 상세

SlotCurri는 DINOv2를 백본으로 사용하는 비디오 객체 중심 학습 프레임워크를 기반으로 한다. 핵심은 슬롯의 개수 K를 학습 과정의 변수로 취급하는 동적 커리큘럼이다. 기존 연구들이 고정된 슬롯 수를 사용하거나 사후에 슬롯을 병합하는 방식을 취한 것과 달리, 본 논문은 생성(Spawning) 시점에 재구성 오차를 가이드로 삼아 필요한 곳에만 자원을 배분한다.

수학적으로 슬롯 생성 시 부모 슬롯 s^(k)에 더해지는 노이즈는 d_nearest(가장 가까운 슬롯과의 거리)와 상대적 특징 노름(feature norm)에 비례하도록 설계되었다. 이는 새로운 슬롯이 기존 슬롯과 너무 겹치지 않으면서도 세만틱적으로 의미 있는 영역으로 이동하도록 돕는다. 또한 3D-SSIM 손실은 시공간적 일관성을 강제하여 비디오의 프레임 간 객체 형태가 급격히 변하는 것을 방지한다.

구현 측면에서 2개의 NVIDIA RTX A6000 GPU를 사용하여 학습되었으며, 추론 시 도입된 Cyclic Inference는 추가적인 학습 없이도 초기 프레임의 언더피팅 문제를 해결하는 효율적인 기법이다. 실험 결과는 SlotCurri가 객체 수가 불분명한 상황에서도 불필요한 슬롯 활성화를 억제하고 객체당 하나의 슬롯을 할당하는 능력이 탁월함을 보여준다.

한계점

작고 밀집된 물체가 많은 MOVi-E 데이터셋에서는 과분할보다 여러 물체가 하나의 슬롯에 뭉치는 '미분할(Under-segmentation)' 문제가 발생할 수 있다. 또한 현재의 커리큘럼 스케줄은 데이터셋의 특성에 따라 σ 값 등의 하이퍼파라미터 튜닝이 필요하며, 향후 장면의 복잡도에 따라 자동으로 슬롯 확장 시점을 결정하는 적응형 스케줄링 연구가 필요하다.

실무 활용

비디오 내 객체를 감독 없이도 정확하게 개별 단위로 분리할 수 있어, 영상 보안, 자율주행, 로봇 제어 등 다양한 실무 분야에 즉시 응용 가능하다. 특히 추가적인 라벨링 비용 없이 대규모 비디오 데이터를 학습할 수 있다는 점이 큰 장점이다.

자율주행 시스템에서 주변 차량 및 보행자를 개별 객체 단위로 정밀하게 추적하고 거동을 예측
지능형 CCTV 보안 시스템에서 겹쳐진 사람이나 물체를 각각 독립된 개체로 분리하여 식별
비디오 편집 소프트웨어에서 특정 사물만 선택하여 제거하거나 효과를 입히는 자동 마스킹 도구
로봇 조작 작업 시 복잡한 작업대 위에서 개별 부품의 위치와 형태를 파악하는 시각 센서

코드 공개 여부: 공개

코드 저장소 보기

키워드

VOCL(비디오 객체 중심 학습)Slot Attention(슬롯 어텐션)Curriculum Learning(커리큘럼 학습)Over-fragmentation(과분할)SSIM(구조적 유사도)Unsupervised Learning(비지도 학습)