CogOmniDiT
CogOmniDiT는 CogVLM이 도출한 의도를 기반으로 다양한 제어 신호를 픽셀 수준의 디테일과 고수준 의미 표현으로 통합하여 비디오를 생성하는 diffusion transformer이다.