핵심 요약
기존 벡터 애니메이션 제작은 수작업 의존도가 높고 AI가 복잡한 JSON 구조를 생성하기 어려웠다. OmniLottie는 전용 토크나이저를 통해 Lottie 파일을 효율적인 토큰 시퀀스로 변환하여, 시각-언어 모델이 멀티모달 지시사항을 따라 정교한 애니메이션을 생성하도록 한다.
왜 중요한가
기존 벡터 애니메이션 제작은 수작업 의존도가 높고 AI가 복잡한 JSON 구조를 생성하기 어려웠다. OmniLottie는 전용 토크나이저를 통해 Lottie 파일을 효율적인 토큰 시퀀스로 변환하여, 시각-언어 모델이 멀티모달 지시사항을 따라 정교한 애니메이션을 생성하도록 한다.
핵심 기여
OmniLottie 프레임워크
멀티모달 입력을 통해 벡터 애니메이션을 직접 생성하는 최초의 엔드투엔드 시스템이다.
Lottie 토크나이저
복잡한 계층적 JSON을 간결한 명령 시퀀스로 변환하여 토큰 길이를 81% 단축하고 학습 효율을 높인다.
MMLottie-2M 데이터셋
200만 개의 고품질 벡터 애니메이션과 멀티모달 주석이 결합된 대규모 데이터셋을 구축하여 공개했다.
MMLottie-Bench
벡터 애니메이션의 시각적 품질과 지시사항 이행 능력을 평가하는 표준 벤치마크를 제안했다.
핵심 아이디어 이해하기
벡터 그래픽은 해상도에 무관하게 선명하지만, 애니메이션 데이터인 Lottie는 매우 복잡한 계층적 JSON 구조를 가진다. 기존의 대형 언어 모델은 이 복잡한 텍스트 형식을 그대로 생성하려다 보니 구조적 오류가 빈번하고, 움직임의 핵심인 수치 변화를 학습하는 데 한계가 있었다. OmniLottie는 이 문제를 해결하기 위해 Lottie 파일을 명령어와 파라미터의 시퀀스로 추상화하는 전용 토크나이저를 도입한다. 이는 마치 복잡한 문장을 핵심 단어로 요약하듯 애니메이션의 동작과 속성을 의미 있는 단위로 분리하여 모델이 이해하기 쉬운 형태로 변환하는 원리이다. 이렇게 변환된 토큰을 시각-언어 모델(VLM)에 입력하면, 모델은 텍스트 설명뿐만 아니라 이미지나 비디오의 시각적 맥락을 파악하여 그에 맞는 벡터 움직임을 생성한다. 결과적으로 수작업 없이도 정교한 UI 애니메이션이나 캐릭터 동작을 자동 생성할 수 있게 된다.
방법론
Lottie 구조 재구성 및 토큰화 단락이다. Lottie JSON의 계층 구조를 평탄화하여 함수 호출 형태의 시퀀스로 변환한다. [JSON 데이터 입력 → 계층 구조 분석 및 불필요한 메타데이터 제거 → 명령어와 파라미터 쌍으로 변환 → 모델 학습용 시퀀스 출력]. 오프셋 기반 수치 이산화 단락이다. 연속적인 수치 파라미터를 정수 토큰으로 변환하기 위해 파라미터 타입별로 고유한 어휘 영역을 할당한다. [수치값 p 입력 → 타입별 스케일 st 곱셈 및 오프셋 ot 더하기 → 정수 토큰 생성 → 속성 간 토큰 충돌 방지]. 멀티모달 학습 전략 단락이다. Qwen2.5-VL을 백본으로 사용하여 텍스트, 이미지, 비디오가 혼합된 입력을 처리한다. MMLottie-2M 데이터셋을 통해 텍스트-to-Lottie, 이미지-to-Lottie, 비디오-to-Lottie 작업을 통합적으로 학습한다.
주요 결과
벤치마크 성능 분석 결과이다. OmniLottie는 모든 작업에서 기존 SOTA 모델인 GPT-5, Gemini 3.1 Pro 등을 크게 상회했다. 특히 Text-to-Lottie 작업에서 FVD 202.14를 기록하며 시각적 품질에서 압도적인 우위를 점했다. 지시사항 이행 및 성공률 결과이다. 객체 정렬과 동작 정렬 지표에서 각각 4.44와 5.94를 기록하여 사용자 지시사항을 가장 정확하게 반영함을 입증했다. 생성 성공률 또한 88.3%로 매우 높은 수준을 유지했다. 효율성 및 속도 결과이다. 전용 토크나이저 사용 시 원본 JSON 대비 토큰 길이를 약 81% 단축하여 학습 효율을 극대화했다. 추론 속도 면에서도 기존 최적화 방식 대비 약 530배 빠른 성능을 보여 실무 적용 가능성을 확인했다.
기술 상세
아키텍처 구조 단락이다. Qwen2.5-VL을 기반으로 하며, Lottie 전용 임베딩 레이어를 추가하여 토크나이저가 생성한 특수 토큰들을 처리하도록 설계했다. 토크나이저 메커니즘 단락이다. Lottie JSON의 복잡한 레이어 인덱싱과 상속 구조를 명시적인 명령어 시퀀스로 변환하여 모델이 공간적/시간적 관계를 더 잘 파악하게 한다. 데이터 증강 기법 단락이다. SVG 데이터를 Lottie로 변환하고 무작위 애니메이션 효과를 적용하는 방식을 사용하여 데이터 부족 문제를 해결하고 모델의 일반화 성능을 높였다. 학습 목적 함수 단락이다. 이전 토큰들과 멀티모달 입력을 조건으로 다음 Lottie 토큰을 예측하는 자기회귀 방식을 채택하여 표준 크로스 엔트로피 손실로 학습했다.
한계점
복잡한 애니메이션의 경우 여전히 유효하지 않은 시퀀스가 생성될 수 있으며, 매우 긴 컨텍스트를 가진 애니메이션 처리에 한계가 있다. 또한 After Effects의 모든 기능을 완벽하게 지원하지는 못한다.
실무 활용
UI/UX 디자인 및 디지털 마케팅 분야에서 텍스트나 이미지만으로 즉시 사용 가능한 벡터 애니메이션을 생성하여 작업 시간을 획기적으로 단축시킨다.
- 텍스트 프롬프트를 통한 웹용 로딩 애니메이션 생성
- 정지된 로고 이미지를 움직이는 벡터 로고로 변환
- 비디오 가이드를 따라 캐릭터의 벡터 동작 생성
- 모바일 앱 인터페이스용 인터랙티브 요소 자동화
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.