TL;DR
다중 모달 입력의 추상적· sparse한 제어 신호를 이해하고 싶은 프로덕션 워크플로우에서 기존 모델은 의도와 출력의 불일치를 겪었다. CogOmniControl은 CogVLM으로 창의적 의도를 인지하고 CogOmniDiT로 해당 의도에 맞춘 비디오 출력을 생성하며, Best-of-N 선택과 evaluator-harness를 통해 클로즈드 루프를 구현한다.
왜 중요한가
다중 모달 입력의 추상적· sparse한 제어 신호를 이해하고 싶은 프로덕션 워크플로우에서 기존 모델은 의도와 출력의 불일치를 겪었다. CogOmniControl은 CogVLM으로 창의적 의도를 인지하고 CogOmniDiT로 해당 의도에 맞춘 비디오 출력을 생성하며, Best-of-N 선택과 evaluator-harness를 통해 클로즈드 루프를 구현한다.
핵심 기여
CogVLM: 창의적 의도 인지 및 조건 해석
다양한 모달 입력에서 창의적 의도를 이해하고, 조건 간 충돌을 해석해 생산적 제어 출력으로 변환하는 비전-언어 모델을 학습한다. SFT와 RFT를 통해 전문 업무 흐름의 프롭드롭을 반영하고, Holistic Reward 및 Accuracy Reward를 이용한 강화 학습으로 사실성 및 내적 일관성을 강화한다.
CogOmniDiT: 고수준 의도-저수준 제어의 단일 디퓨전 트랜스포머
CogVLM의 인지 출력을 픽셀-수준 제어 신호와 고수준 의미 특징으로 통합하는 단일 시퀀스 디퓨전 트랜스포머이다. 입력 시퀀스에 Zt, Zref, Zctrl, EmbVLM를 연결해 다양한 제어 신호를 효율적으로 주입한다.
폐쇄형 루프 평가기-해 harness: Best-of-N 선택 via 동적Evaluator
CogVLM이 inference 중 필요한 Evaluator를 선택해 Best-of-N 후보를 평가하고, 최종 비디오를 선택한다. evaluator는 Artifact Detector, Prompt Following, Temporal Smoothness 등 다수 도구를 포함하며 입력 조건에 따라 동적으로 구성된다.
CogReasonBench & CogControlBench: 전문 워크플로우 기반 벤치마크
스토리보드-클레이 렌더 등 실무 애니메이션 생산 데이터에서 수집된 VLM-추론 및 제어 품질 벤치마크를 제시한다. CogReasonBench은 VLM의 의도 인지 능력을, CogControlBench는 제어 신호 추종 및 시나리오 적합도를 평가한다.
실험적 성과: 오픈 소스 모델 대비 우수한 성능, 보완점에 근접
CogOmniControl은 오픈 소스 모델을 상회하는 성능을 보였고, Best-of-N 샘플링에서 BoN 설정으로 특히 개선되었다. 두 벤치에서 CogVLM+CogOmniDiT 구성이 가장 강력한 조합임이 확인되었다.
핵심 아이디어 이해하기
단락 1: 시작점 및 한계 - 기존 VLM 기반 컨트롤 비디오 생성은 추상적·스파스한 조건에서 의도 파악이 부족하고, 이를 비디오 출력에 정확히 매핑하는 능력이 부족하다. 또한 일반 VLM의 추론이 디퓨전 기반 생성과 잘 맞물리지 않아 품질 저하 및 미일치를 초래한다. 단락 2: 해결 원리 - CogVLM은 다중 모달 Draft를 입력받아 전문적 의도를 해석하고, 추론 출력과 평가 신호를 생성한다. CogOmniDiT는 이 추론 출력을 바탕으로 다양한 조건 신호를 하나의 시퀀스로 통합하여 비디오를 생성한다. 단락 3: 차별점 - SFT와 RFT를 통한 의도-정보-무결성-동작의 Holistic Reward를 도입하고, Racc를 통해 사실성 보장을 강화한다. 이는 기존의 adapter 기반 접근이나 일반 VLM 기반 추론의 노이즈를 줄이고 더 안정적인 컨트롤을 가능하게 한다. 단락 4: 기대 효과 - 다중 조건의 충돌 해소, 추상 조건에서도 창의적 의도에 맞는 비디오를 생성하며 Best-of-N 선택으로 품질을 보장한다. 또한 CogReasonBench/CogControlBench를 통해 전문 워크플로우에 근거한 평가를 가능하게 한다.
방법론
단락 1: 시스템 구성 - CogOmniControl은 두 축으로 구성된다. CogVLM은 Condition Understanding 및 Intent Cognition을 담당하고, CogOmniDiT는 이 지식을 바탕으로 비디오를 생성한다. 입력 조건 C = {Vctrl, Iref, Tdesc}를 다중 모달로 처리해 P(V|C) 형태로 생성을 정의한다. 단락 2: CogVLM 학습 - SFT로 기본 다중 모달 이해를 학습하고, RFT로 Holistic Reward(Rholistic) 및 Accuracy Reward(Racc)를 통해 추론의 신뢰성을 강화한다. 단락 3: CogOmniDiT 학습 - 3단계 LoRA 기반 SFT를 통해 in-context generation 능력을 확보하고, CogVLM과의 연결고리(Connector)를 점진적으로 학습시키며, 최종적으로 CogOmniDiT(RFT)로 정책을 맞춘다. 단락 4: Open-world 평가 체계 - Evaluator Harness를 도입해 Best-of-N 선택을 수행하고, 각 입력에 따라 필요한 Evaluator를 동적으로 구성한다. 단락 5: 데이터 및 벤치마크 - 전문 워크플로우 데이터와 일반 데이터의 혼합으로 CogReasonBench와 CogControlBench를 구성한다. 단락 6: 구현 세부 - LoRA 랭크, 학습 스케줄, 샘플링 방식 등 구체적 하이퍼파라미터를 조합해 실험적 설정을 제시한다.
관련 Figure

해당 도해는 입력 조건의 결합 방식과 각 파생 경로가 최종 출력에 미치는 영향을 구체적으로 보여준다. CogVLM의 추론 흐름과 CogOmniDiT의 결합 방식이 시각적으로 드러난다.
Condition Inputs와 세 가지 제어 흐름(Ref Image, Text Prompt, Control Video)을 비교하는 다이어그램. CogOmniControl의 구조적 차이를 시각화한다.

CogVLM의 두 학습 단계와 CogOmniDiT의 연계, Evaluator Harness의 역할을 시각화한다. 시스템 학습 파이프라인의 구성 요소 간 관계를 확인할 수 있다.
CogOmniControl의 전체 프레임워크와 SFT/RFT 학습 흐름을 요약한 그림.

CogVLM과 CogOmniDiT의 단계적 학습 절차를 한 눈에 파악하게 해 주며, 특히 RFT의 도입으로 보정되는 학습 방향성을 설명한다.
CogVLM과 CogOmniDiT의 훈련 파이프라인(Stage-1~Stage-3, RFT 포함)을 보여주는 도해.
주요 결과
단락 1: 메인 벤치마크 - CogVLM은 SFT에서 Avg 4.343, RFT에서 Avg 4.473의 높은 점수를 기록했다( MM Intent, Physics, Integrity, Motion). Qwen3-VL-8B-Instruct/Thinking은 각각 3.712/3.752로 낮았다. 단락 2: 벤치마크 비교 - CogControlBench에서 CogOmniControl의 Avg 0.727로 오픈소스 중 최상위 수준이며, BoN(4) 샘플링 시 0.733, Harness BoN 시 0.742로 향상되었다. Seedance2.0 등 강력한 상용 시스템에 근접하거나 차이가 작다. 단락 3: Ablation - CogVLM(SFT) + CogOmniDiT(SFT) 조합은 3.397~3.726으로 일부 구성에서 상향곡선을 보이며, RFT로 교차 적용 시 더 나은 성능을 달성한다. 단락 4: 시각적/제어 품질 - CogOmniControl은 reference 이미지의 특징 보존, 추론 일치성 및 고품질 출력을 달성하며 VACE-LTX/VACE 등 대체 모델의 한계를 보인다.
관련 Figure

클레이 렌더 데이터에서의 품질 차이와 제어 신호의 충실도 차이를 시각적으로 보여준다. CogOmniControl이 클레이 렌더링 워크플로우에서의 강점을 강조한다.
Clay render 비교에서 CogOmniControl이 다른 모델보다 더 높은 품질과 정확한 의도 추적을 보임을 암시하는 이미지 비교표.

여러 모델 간의 시각적 차이와 Best-of-N 선택의 효과를 한 화면에 보여준다. CogOmniControl의 강점이 미디어 품질과 조건 추종에서 돋보인다.
CogOmniControl과 다른 비디오 생성 모델의 비교 결과 이미지 스크린샷 모음.
실무 활용
프로덕션 워크플로우에서 추상적· sparse한 조건을 이해하고 이를 영상으로 구체화하는 종합 제어 프레임워크이다. CogVLM이 창의적 의도를 인지하고 CogOmniDiT가 이를 바탕으로 일관된 고품질 비디오를 생성한다. 상호 보완적인 Best-of-N 활용으로 최적의 출력을 선택한다.
- Storyboard-to-video 제작 파이프라인에서 의도 인지 기반 생성 적용
- Clay render 초안에서 최종 비디오로의 전환 시 의도 일치성 강화
- 다양한 참조 이미지와 텍스트 설명을 조합한 참조-비디오 정합성 개선
- Best-of-N 샘플링으로 품질 보장 및 편집 워크플로우 간소화
코드 공개 여부: 미확인
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.