숫자가 말할 때: 텍스트-비디오 확산 모델에서 텍스트 숫자와 시각적 인스턴스 정렬

현재 비디오 생성 AI는 프롬프트에 명시된 객체의 정확한 개수를 생성하는 데 어려움을 겪고 있다. 이 논문은 추가 학습 없이도 비디오 내 객체 개수를 정확하게 맞출 수 있는 NUMINA 프레임워크를 제안하여, 정밀한 시각화가 필요한 교육 및 산업 분야에서의 AI 활용도를 크게 높였다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

학습이 필요 없는 NUMINA 프레임워크 제안

추가적인 데이터 학습이나 모델 파라미터 수정 없이 추론 단계에서만 작동하는 'identify-then-guide' 방식의 프레임워크를 개발하여 다양한 비디오 생성 모델에 즉시 적용 가능하다.

인스턴스 분리형 어텐션 헤드 식별

Diffusion Transformer(DiT) 내부의 수많은 어텐션 헤드 중 객체의 경계를 명확히 구분하고 개수를 셀 수 있는 특정 헤드가 존재함을 발견하고 이를 자동으로 선택하는 메커니즘을 설계했다.

CountBench 벤치마크 구축

1개에서 8개 사이의 객체 개수와 복합적인 객체 구성을 포함하는 210개의 프롬프트로 구성된 새로운 수치 정렬 평가 데이터셋을 공개했다.

수치 정렬 및 시각적 품질의 동시 향상

Wan2.1 모델 기준 객체 개수 정확도를 최대 7.4% 향상시켰으며, CLIP 점수와 시간적 일관성(Temporal Consistency) 지표에서도 기존 방식 대비 우수한 성능을 입증했다.

핵심 아이디어 이해하기

기존의 비디오 생성 모델은 Transformer의 Cross-Attention 메커니즘을 통해 텍스트 정보를 주입하지만, '3'이나 '4' 같은 숫자 토큰은 명사나 동사에 비해 어텐션 맵이 매우 흐릿하게(diffuse) 나타나는 경향이 있다. 이로 인해 모델은 생성 과정에서 객체를 몇 개 그려야 할지 명확한 가이드를 받지 못하고, 결과적으로 객체가 뭉치거나 누락되는 현상이 발생한다.

NUMINA는 모델 내부의 Self-Attention 헤드들이 이미 객체의 개별적인 형태와 경계 정보를 어느 정도 파악하고 있다는 점에 착안했다. 수많은 헤드 중 객체 간의 분리도가 가장 높은 헤드를 PCA(주성분 분석)와 Sobel 연산자 기반의 점수화 방식으로 찾아내어, 현재 모델이 '무의식적으로' 몇 개의 객체를 그리려고 하는지 레이아웃을 추출한다.

추출된 레이아웃의 객체 수가 프롬프트와 다를 경우, NUMINA는 레이아웃 단계에서 객체를 추가하거나 삭제하는 최소한의 수정을 가한다. 이후 수정된 레이아웃을 가이드 삼아 Cross-Attention 맵에 특정 영역의 활성도를 높이거나(Boost) 낮추는(Suppression) 바이어스를 주입함으로써, 모델이 자연스럽게 정해진 개수의 객체를 생성하도록 유도한다.

방법론

NUMINA는 '수치적 불일치 식별(Phase 1)'과 '수치 정렬 비디오 생성(Phase 2)'의 두 단계로 구성된다. 첫 번째 단계에서는 사전 생성(Pre-generation) 과정을 통해 DiT 블록 내부의 어텐션 맵을 분석한다. Self-Attention 맵에서 인스턴스 분리도가 높은 헤드를 선택하고, Cross-Attention 맵에서 텍스트 토큰과 밀접한 헤드를 선택하여 이들을 융합함으로써 명시적으로 개수 파악이 가능한 잠재 레이아웃(Latent Layout)을 생성한다.

두 번째 단계인 레이아웃 가이드 생성에서는 추출된 레이아웃의 객체 수(m)와 프롬프트의 목표 수(k)를 비교한다. m < k인 경우 기존 객체의 크기와 모양을 복사한 템플릿을 최적의 위치에 배치하여 객체를 추가하고, m > k인 경우 가장 작은 객체 영역을 제거한다. 이때 위치 선정은 기존 객체와의 겹침을 방지하고 시간적 연속성을 유지하기 위한 휴리스틱 비용 함수를 최소화하는 방향으로 결정된다.

최종적으로 수정된 레이아웃은 Cross-Attention 변조를 통해 실제 비디오 생성 과정을 제어한다. Softmax 연산 전의 어텐션 스코어(Spre)에 레이아웃 기반 바이어스(B)를 더하는 방식[softmax(Spre + B)V]을 사용한다. 객체가 추가된 영역에는 양의 바이어스를 주어 어텐션을 강화하고, 제거된 영역에는 큰 음의 값을 주어 생성을 억제한다. 이 가이드는 생성 초기 단계에 강하게 적용되고 후기로 갈수록 약화되어 세부적인 디테일 형성을 방해하지 않도록 설계됐다.

관련 Figure

#3Diagram
1단계에서 어텐션 맵을 통해 레이아웃을 식별하고, 2단계에서 이를 수정하여 비디오 생성을 가이드하는 전체 과정을 시각화했다. 객체 추가(Addition)와 제거(Removal)가 레이아웃 수준에서 어떻게 이루어지는지 명확히 보여준다.
NUMINA의 2단계 파이프라인 다이어그램

주요 결과

Wan2.1-1.3B 모델에서 NUMINA는 기본 모델 대비 객체 개수 정확도(CountAcc)를 42.3%에서 49.7%로 7.4%p 향상시켰다. 특히 객체 수가 5개 이상인 복잡한 시나리오에서 기존의 시드 검색(Seed search)이나 프롬프트 강화(Prompt enhancement) 방식보다 월등한 성능을 보였다. 예를 들어 객체 8개를 생성하는 작업에서 기본 모델은 11.3%의 정확도에 그쳤으나 NUMINA는 20.7%로 두 배 가까운 성능 향상을 기록했다.

시간적 일관성(TC) 측면에서도 Wan2.1-14B 모델 기준 84.0%를 기록하며 객체 추가/삭제 과정에서도 비디오의 흐름이 끊기지 않음을 증명했다. 또한 CLIP 점수가 향상되어 텍스트와 이미지 간의 전반적인 의미론적 일관성도 강화되었다. 추가 실험을 통해 CogVideoX-5B 모델에서도 정확도가 4.2%p 향상됨을 확인하여 모델 범용성을 입증했다.

관련 Figure

#1Photo
기존 모델이 '세 마리의 고양이'나 '네 명의 등산객' 프롬프트에서 개수를 틀리는 반면, NUMINA는 정확한 수의 객체를 생성함을 보여준다. 특히 여러 종류의 객체가 섞인 복잡한 프롬프트에서도 정확한 정렬 성능을 증명한다.
기존 Wan2.1 모델과 NUMINA의 비디오 생성 결과 비교

#6Chart
객체 수가 많아질수록 모든 모델의 성능이 급격히 떨어지지만, NUMINA는 모든 구간에서 기본 모델 및 다른 개선 방식(Seed search 등)보다 높은 정확도를 유지함을 수치로 보여준다.
객체 수에 따른 모델별 정확도 그래프

기술 상세

NUMINA는 DiT 아키텍처의 중간 레이어(예: Wan2.1-1.3B의 15번째 레이어)와 특정 타임스텝(t*=20)에서 가장 풍부한 구조적 정보가 나타난다는 실험적 발견을 토대로 한다. Self-Attention 헤드 선택을 위해 표준편차(대비), 블록별 분산(구조적 풍부함), Sobel 그래디언트(에지 명확성)를 결합한 점수화 함수 S(SAh)를 정의하여 사용한다.

레이아웃 수정 시 최소 구조 변화 원칙(Minimal Structural Change)을 준수한다. 객체 추가 시에는 기존 카테고리의 인스턴스 중 가장 작은 것을 템플릿으로 복사하여 크기와 모양의 일관성을 유지한다. 만약 해당 카테고리가 아예 없다면 원형 템플릿을 기본값으로 사용한다. 위치 최적화 시에는 이전 프레임의 위치 정보를 참조하는 시간적 비용 항(Ct)을 포함하여 객체의 갑작스러운 위치 변화를 방지한다.

Cross-Attention 변조 강도는 시간에 따라 감쇠하는 함수 δ(t)를 사용하여 제어한다. 이는 생성 초기에 전반적인 레이아웃을 고정하고, 후기에는 모델이 텍스처와 세부 묘사에 집중할 수 있도록 자유도를 부여하는 전략이다. 또한 EasyCache와 같은 추론 가속 기법과 호환되어 연산 오버헤드를 최소화하면서도 결정론적인 개수 제어가 가능하다.

한계점

인스턴스 분리형 어텐션 헤드가 객체의 전체 몸통이 아닌 가장 눈에 띄는 부분(예: 동물의 머리)에만 과도하게 집중할 경우, 하나의 객체를 여러 개로 오인하여 과분할(Over-segmentation)된 레이아웃을 생성하는 오류가 발생할 수 있다. 또한 수백 개 이상의 매우 조밀한 객체 생성 시나리오는 아직 검증되지 않았다.

실무 활용

NUMINA는 별도의 학습 없이 추론 시점에 적용 가능한 경량 프레임워크로, 정확한 객체 묘사가 필수적인 비디오 제작 워크플로우에 즉시 통합될 수 있다.

교육용 콘텐츠 제작: 특정 개수의 사물을 설명해야 하는 유아 교육용 비디오 생성
전자상거래 광고: 제품의 구성 수량을 정확하게 보여줘야 하는 상품 홍보 영상 제작
데이터 증강: 객체 탐지 모델 학습을 위해 정확한 개수의 객체가 포함된 합성 비디오 데이터 생성

코드 공개 여부: 공개

코드 저장소 보기

키워드

Text-to-Video(텍스트-비디오 생성)Diffusion Transformer(확산 트랜스포머)Numerical Alignment(수치 정렬)Attention Modulation(어텐션 변조)Training-free(학습 불필요 기법)

숫자가 말할 때: 텍스트-비디오 확산 모델에서 텍스트 숫자와 시각적 인스턴스 정렬

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

학습이 필요 없는 NUMINA 프레임워크 제안

인스턴스 분리형 어텐션 헤드 식별

CountBench 벤치마크 구축

1개에서 8개 사이의 객체 개수와 복합적인 객체 구성을 포함하는 210개의 프롬프트로 구성된 새로운 수치 정렬 평가 데이터셋을 공개했다.

수치 정렬 및 시각적 품질의 동시 향상

핵심 아이디어 이해하기

방법론

관련 Figure

주요 결과

관련 Figure

기술 상세

한계점

실무 활용

NUMINA는 별도의 학습 없이 추론 시점에 적용 가능한 경량 프레임워크로, 정확한 객체 묘사가 필수적인 비디오 제작 워크플로우에 즉시 통합될 수 있다.

교육용 콘텐츠 제작: 특정 개수의 사물을 설명해야 하는 유아 교육용 비디오 생성
전자상거래 광고: 제품의 구성 수량을 정확하게 보여줘야 하는 상품 홍보 영상 제작
데이터 증강: 객체 탐지 모델 학습을 위해 정확한 개수의 객체가 포함된 합성 비디오 데이터 생성

코드 공개 여부: 공개

코드 저장소 보기

키워드

Text-to-Video(텍스트-비디오 생성)Diffusion Transformer(확산 트랜스포머)Numerical Alignment(수치 정렬)Attention Modulation(어텐션 변조)Training-free(학습 불필요 기법)

숫자가 말할 때: 텍스트-비디오 확산 모델에서 텍스트 숫자와 시각적 인스턴스 정렬

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

숫자가 말할 때: 텍스트-비디오 확산 모델에서 텍스트 숫자와 시각적 인스턴스 정렬

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드