핵심 요약
OmniLottie는 멀티모달 지시어(multi-modal instructions)로부터 고품질 벡터 애니메이션(vector animations)을 생성하는 다재다능한 프레임워크입니다. 유연한 동작 및 시각적 콘텐츠 제어를 위해, 도형과 애니메이션 동작 표현을 모두 지원하는 경량 JSON 형식인 로티(Lottie)에 집중합니다. 그러나 가공되지 않은 로티 JSON 파일은 방대한 불변 구조 메타데이터와 포맷팅 토큰을 포함하고 있어, 벡터 애니메이션 생성 학습에 큰 어려움을 줍니다. 따라서 우리는 JSON 파일을 도형, 애니메이션 함수 및 제어 매개변수를 나타내는 구조화된 명령 및 매개변수 시퀀스로 변환하는 잘 설계된 로티 토크나이저(Lottie tokenizer)를 도입합니다. 이러한 토크나이저를 통해 사전 학습된 시각 언어 모델(Vision Language Models, VLM)을 기반으로 OmniLottie를 구축하여 멀티모달 인터리브 지시어(multi-modal interleaved instructions)를 따르고 고품질 벡터 애니메이션을 생성할 수 있습니다. 벡터 애니메이션 생성 연구를 더욱 발전시키기 위해, 텍스트 및 시각적 주석이 포함된 200만 개의 전문가용 벡터 애니메이션 대규모 데이터셋인 MMLottie-2M을 구축했습니다. 광범위한 실험을 통해 OmniLottie가 멀티모달 인간 지시어에 밀접하게 부합하며 생생하고 의미론적으로 정렬된 벡터 애니메이션을 생성할 수 있음을 입증했습니다.
핵심 기여
OmniLottie 프레임워크 구축
텍스트와 이미지가 혼합된 멀티모달 지시어를 이해하고 고품질 로티(Lottie) 애니메이션을 생성하는 통합 시스템을 설계했습니다.
전용 로티 토크나이저 개발
복잡한 JSON 구조에서 불필요한 메타데이터를 제거하고 도형 및 동작 매개변수를 효율적인 토큰 시퀀스로 변환하는 기술을 도입했습니다.
MMLottie-2M 데이터셋 공개
전문가가 디자인한 200만 개의 벡터 애니메이션과 이에 대응하는 텍스트 및 시각적 주석을 포함한 대규모 데이터셋을 구축했습니다.
VLM 기반의 정밀 제어
사전 학습된 시각 언어 모델을 활용하여 복잡한 인터리브 지시어에 따른 의미론적 정렬과 시각적 일관성을 확보했습니다.
방법론
로티(Lottie) JSON의 구조적 중복성을 해결하기 위해 도형 생성 명령과 애니메이션 매개변수를 분리하여 토큰화하는 전용 토크나이저를 설계했습니다. 이를 사전 학습된 시각 언어 모델(VLM)의 디코더 구조에 통합하여, 멀티모달 컨텍스트를 입력받아 순차적으로 애니메이션 토큰을 생성하는 자기회귀(Autoregressive) 방식을 적용했습니다.
주요 결과
MMLottie-2M 데이터셋을 통한 실험 결과, OmniLottie는 기존의 벡터 생성 모델들보다 시각적 정렬도와 동작의 자연스러움에서 우수한 성능을 보였습니다. 특히 텍스트 설명과 참조 이미지가 동시에 주어지는 복합 지시어 상황에서도 지시 사항을 충실히 반영한 애니메이션을 생성하는 능력을 입증했습니다.
시사점
웹 및 앱 개발에서 표준으로 사용되는 로티(Lottie) 형식을 직접 생성함으로써 디자이너의 반복적인 수작업을 크게 줄여줍니다. 단순한 픽셀 기반 영상이 아닌 수정 가능한 벡터 데이터를 생성하므로, 실무 환경에서 UI/UX 디자인 자동화 및 개인화된 동적 콘텐츠 제작에 즉시 활용할 수 있습니다.
키워드
섹션별 상세
OmniLottie 프레임워크 구축
전용 로티 토크나이저 개발
MMLottie-2M 데이터셋 공개
VLM 기반의 정밀 제어
AI 요약 · 북마크 · 개인 피드 설정 — 무료