OmniShotCut: 샷 쿼리 Transformer를 활용한 통합 관계형 샷 경계 검출

기존의 샷 경계 검출 기술은 단순한 장면 전환점만 찾을 뿐, 전환의 종류나 샷 사이의 논리적 관계를 파악하지 못해 비디오 생성 모델 학습용 데이터 정제에 한계가 있었다. 이 논문은 Transformer 기반의 샷 쿼리 방식을 도입하여 미세한 편집 오류인 'Sudden Jump'까지 잡아내고 샷 간의 관계를 구조적으로 예측함으로써 고품질 비디오 데이터셋 구축의 효율성을 극대화한다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

관련 Figure

#1Infographic
기존 모델들이 단순 경계만 찾고 전환 유형이나 샷 간의 논리적 연결을 놓치는 문제를 지적하며, 본 논문이 왜 관계형 예측과 새로운 벤치마크를 제안했는지에 대한 동기를 설명한다.
기존 샷 경계 검출 모델의 한계점(관계 정보 부재, 미세 점프 무시, 모호한 경계, 벤치마크의 한계)을 시각화한 그림이다.

핵심 기여

관계형 샷 경계 검출 프레임워크

단순한 시간적 범위 예측을 넘어 샷 내부의 전환 유형(Intra-shot)과 이전 샷과의 연속성 관계(Inter-shot)를 동시에 추론하는 구조적 관계 예측 방식을 도입했다.

샷 쿼리 기반 Dense Video Transformer

DETR 아키텍처를 비디오 도메인에 맞게 수정하여, 고정된 수의 학습 가능한 샷 쿼리가 전체 비디오 특징과 상호작용하며 샷의 범위와 관계를 직접 예측하도록 설계했다.

파라미터화된 합성 전환 생성 파이프라인

수작업 레이블링의 부정확성을 극복하기 위해 9가지 주요 유형과 30가지 하위 유형의 영상 전환 효과를 정밀한 경계 정보와 함께 자동으로 생성하는 합성 데이터 생성 엔진을 구축했다.

OmniShotCutBench 벤치마크 구축

현대적인 인터넷 영상의 다양성을 반영하고 샷 간 관계 예측 성능을 진단할 수 있는 새로운 광범위 도메인 벤치마크 데이터셋을 공개했다.

핵심 아이디어 이해하기

기존의 샷 경계 검출은 주로 인접한 프레임 간의 픽셀 차이나 특징 변화를 감지하는 방식에 의존했다. 하지만 이는 'Dissolve'나 'Fade'처럼 서서히 변하는 장면 전환의 정확한 시작과 끝을 찾기 어렵게 만들고, 샷 전체의 맥락을 파악하지 못한다는 한계가 있다. 본 논문은 이를 해결하기 위해 비디오 전체를 하나의 시퀀스로 보고, 특정 샷의 정보를 담는 '샷 쿼리'라는 개념을 도입했다.

Transformer의 Attention 메커니즘을 활용하면 각 샷 쿼리는 비디오 전체 프레임 중 자신이 담당하는 샷에 해당하는 부분에 집중(Attention)하여 정보를 수집한다. 이는 마치 질문자가 비디오에게 '첫 번째 샷은 어디서 시작해서 어디서 끝나며, 어떤 효과로 전환되는가?'라고 묻는 것과 같다. 이 과정을 통해 모델은 국소적인 프레임 변화뿐만 아니라 샷 전체의 구조적 특징을 학습하게 된다.

결과적으로 모델은 단순한 절단면(Cut)뿐만 아니라, 편집자가 의도적으로 삽입한 미세한 프레임 점프나 복잡한 그래픽 효과까지 정확하게 식별할 수 있게 된다. 이는 비디오를 단순한 프레임의 나열이 아닌, 의미 있는 단위들의 유기적인 결합체로 이해하게 함으로써 비디오 이해의 수준을 한 단계 높인다.

방법론

전체 아키텍처는 ResNet 기반의 이미지 인코더, Transformer 인코더, 그리고 샷 쿼리를 사용하는 Transformer 디코더로 구성된다. 입력 비디오 프레임 [F x H x W x C]는 인코더를 거쳐 시공간적 특징 벡터로 변환되며, 여기에 3D 위치 임베딩이 더해져 시간적 순서 정보를 유지한다.

디코더에서는 고정된 개수의 학습 가능한 샷 쿼리가 입력된다. 각 쿼리는 Self-Attention을 통해 샷 간의 상호작용을 계산하고, Cross-Attention을 통해 인코더의 비디오 특징에서 필요한 정보를 추출한다. [입력 쿼리 → Cross-Attention 연산 → 갱신된 쿼리 임베딩] 과정을 거쳐 각 쿼리는 특정 샷의 고유한 정보를 압축하게 된다.

최종 출력단에는 세 개의 MLP 헤드가 존재한다. Range 헤드는 샷의 끝 프레임 인덱스를 분류 방식으로 예측하고, Intra-relation 헤드는 샷 내부의 전환 효과(Dissolve, Wipe 등)를 분류하며, Inter-relation 헤드는 이전 샷과의 관계(Hard Cut, Sudden Jump 등)를 판별한다. 손실 함수는 이 세 가지 분류 오차의 가중합으로 계산되어 모델을 안정적으로 최적화한다.

관련 Figure

#2Diagram
인터넷 영상 수집부터 DINO 기반 클러스터링, 모션 필터링을 거쳐 정밀한 전환 효과를 합성하는 과정을 단계별로 보여주며, 학습 데이터의 품질 확보 원리를 설명한다.
대규모 합성 데이터 생성을 위한 비디오 큐레이션 및 전환 합성 파이프라인의 전체 과정을 보여주는 다이어그램이다.

#4Photo
제안된 파이프라인이 얼마나 다양하고 복잡한 전환 효과를 정밀하게 생성할 수 있는지 보여주며, 이를 통해 학습된 모델의 범용성을 뒷받침한다.
모델이 지원하는 다양한 영상 전환 효과(Wipe, Zoom, Fade 등)의 실제 합성 예시들을 나열한 그림이다.

주요 결과

OmniShotCutBench에서 실시한 실험 결과, 제안 모델은 기존 SOTA 모델인 TransNetV2 및 AutoShot을 크게 상회하는 성능을 보였다. 특히 장면 전환의 정확도를 나타내는 Transition IoU에서 0.632를 기록하여 기존 모델(0.183~0.252) 대비 압도적인 정밀도를 입증했다.

Sudden Jump 탐지 정확도에서도 0.761을 달성하여 기존 모델들이 거의 잡아내지 못하던 미세한 불연속성을 효과적으로 식별해냈다. 전체적인 샷 범위 예측 성능인 Range F1 스코어는 0.883으로 가장 높은 수치를 기록했다.

Ablation Study를 통해 샷 범위를 회귀(Regression)가 아닌 이산적 분류(Classification) 문제로 정의한 것이 프레임 단위의 정밀한 경계 확정에 결정적인 역할을 했음을 확인했다. 또한 DINO 기반의 의미론적 클러스터링을 통한 합성 데이터 학습이 실제 영상 도메인으로의 일반화 성능을 높이는 데 기여했다.

기술 상세

본 연구는 샷 경계 검출을 단순 분할 문제가 아닌 '구조적 관계 예측'으로 재정의했다. 아키텍처는 DETR의 객체 탐지 메커니즘을 시계열 데이터로 확장한 형태이며, 2D 위치 임베딩을 3D(t, x, y)로 확장하여 시공간적 맥락을 보존한다. 디코더의 샷 쿼리는 비디오 내의 잠재적인 샷들을 병렬적으로 탐색하며, 각 쿼리는 독립적인 샷 슬롯으로 기능한다.

특히 주목할 점은 경계 예측 방식의 변화이다. 기존의 L1 Loss 기반 좌표 회귀 방식은 긴 시퀀스에서 단 1프레임의 오차도 허용하지 않는 SBD 작업의 특성상 최적화가 어려웠다. 이를 해결하기 위해 각 프레임 인덱스를 클래스로 하는 분류 문제로 전환하여 수렴 속도와 정확도를 모두 개선했다. 또한 'Sudden Jump'라는 새로운 범주를 정의하고 이를 탐지하기 위해 CoTracker3를 이용한 조밀한 모션 강도 추정 기법을 데이터 큐레이션 단계에 도입했다.

관련 Figure

#3Diagram
이미지 인코더, Transformer 인코더/디코더, 그리고 샷 범위 및 관계를 예측하는 3개의 MLP 헤드 구성을 상세히 나타내어 모델의 동작 메커니즘을 시각적으로 전달한다.
OmniShotCut의 핵심 아키텍처인 샷 쿼리 기반 Dense Video Transformer의 구조도이다.

한계점

매우 정교한 예술적 전환 효과나 의미론적으로 복잡한 시네마틱 기법의 경우, 현재의 합성 데이터 파라미터만으로는 완벽히 모사하기 어려울 수 있다. 대규모 산업 수준의 전환 템플릿 라이브러리를 확보하여 학습 데이터를 더욱 보강할 필요가 있다.

실무 활용

고품질 비디오 데이터셋 구축이 필요한 AI 연구소 및 영상 편집 자동화 솔루션 개발사에 즉시 적용 가능한 기술이다.

비디오 생성 모델(Sora 등) 학습을 위한 대규모 영상 데이터셋의 자동 정제 및 샷 분할
지능형 영상 편집 소프트웨어에서 장면 전환 효과 자동 감지 및 태깅
영상 아카이브 시스템에서 샷 단위의 정밀한 색인 및 검색 서비스 구축

코드 공개 여부: 공개

코드 저장소 보기

관련 Figure

#5Screenshot
프레임 단위의 정밀한 검수와 관계 정보 입력을 가능하게 하는 도구를 통해 벤치마크 데이터셋의 신뢰도가 어떻게 확보되었는지 보여준다.
OmniShotCutBench 구축을 위해 개발된 전용 데이터 레이블링 도구의 인터페이스 스크린샷이다.

키워드

SBD(샷 경계 검출)Transformer(트랜스포머)Video-Understanding(비디오 이해)Synthetic-Data(합성 데이터)Shot-Query(샷 쿼리)

OmniShotCut: 샷 쿼리 Transformer를 활용한 통합 관계형 샷 경계 검출

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

관련 Figure

핵심 기여

관계형 샷 경계 검출 프레임워크

샷 쿼리 기반 Dense Video Transformer

파라미터화된 합성 전환 생성 파이프라인

OmniShotCutBench 벤치마크 구축

현대적인 인터넷 영상의 다양성을 반영하고 샷 간 관계 예측 성능을 진단할 수 있는 새로운 광범위 도메인 벤치마크 데이터셋을 공개했다.

핵심 아이디어 이해하기

방법론

관련 Figure

주요 결과

기술 상세

관련 Figure

한계점

실무 활용

고품질 비디오 데이터셋 구축이 필요한 AI 연구소 및 영상 편집 자동화 솔루션 개발사에 즉시 적용 가능한 기술이다.

비디오 생성 모델(Sora 등) 학습을 위한 대규모 영상 데이터셋의 자동 정제 및 샷 분할
지능형 영상 편집 소프트웨어에서 장면 전환 효과 자동 감지 및 태깅
영상 아카이브 시스템에서 샷 단위의 정밀한 색인 및 검색 서비스 구축

코드 공개 여부: 공개

코드 저장소 보기

관련 Figure

키워드

SBD(샷 경계 검출)Transformer(트랜스포머)Video-Understanding(비디오 이해)Synthetic-Data(합성 데이터)Shot-Query(샷 쿼리)

OmniShotCut: 샷 쿼리 Transformer를 활용한 통합 관계형 샷 경계 검출

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

OmniShotCut: 샷 쿼리 Transformer를 활용한 통합 관계형 샷 경계 검출

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드