핵심 요약
기존 비디오 생성 모델은 높은 표현력, 실시간 추론, 장기적 정체성 유지라는 세 가지 조건을 동시에 만족하기 어려웠다. LPM 1.0은 이를 해결하여 대화형 에이전트나 게임 NPC가 사용자와 실시간으로 상호작용하며 일관된 외형을 유지할 수 있는 기술적 토대를 마련했다.
왜 중요한가
기존 비디오 생성 모델은 높은 표현력, 실시간 추론, 장기적 정체성 유지라는 세 가지 조건을 동시에 만족하기 어려웠다. LPM 1.0은 이를 해결하여 대화형 에이전트나 게임 NPC가 사용자와 실시간으로 상호작용하며 일관된 외형을 유지할 수 있는 기술적 토대를 마련했다.
관련 Figure

다양한 캐릭터(실사, 애니메이션, 동물 등)에 대해 일관된 정체성을 유지하며 실시간으로 대화하는 모습을 보여준다. 특히 하단의 타임라인은 1초부터 60,000초까지 정체성 변화 없이 비디오가 생성될 수 있음을 시각화하여 모델의 장기적 안정성을 강조한다.
LPM 1.0의 주요 특징인 표현력 있는 대화, 캐릭터 일반화, 장기적 정체성 안정성을 보여주는 예시 이미지이다.
핵심 기여
LPM 1.0 프레임워크 구축
표현력, 실시간성, 장기적 안정성을 동시에 해결하는 비디오 생성 시스템을 제안했다. 17B 파라미터의 Base LPM과 이를 실시간 추론용으로 증류한 Online LPM으로 구성된다.
대화 중심의 멀티모달 데이터셋 구축
말하기와 듣기 행동이 짝을 이루는 고품질 인간 중심 비디오 데이터를 엄격하게 필터링하여 구축했다. 이를 통해 캐릭터의 반응형 동작 학습이 가능해졌다.
멀티 그래뉼러리티 정체성 참조 기법
단일 이미지가 아닌 전신, 다각도, 다양한 표정의 참조 이미지를 동시에 입력받아 캐릭터의 정체성을 3D 수준으로 일관되게 유지하는 메커니즘을 도입했다.
LPM-Bench 제안
대화형 캐릭터의 퍼포먼스를 체계적으로 평가하기 위한 최초의 벤치마크를 제안하여 표현력, 제어 가능성, 감정적 성능 등을 측정할 수 있게 했다.
핵심 아이디어 이해하기
기존 비디오 생성 모델은 주로 텍스트나 단일 이미지에 의존하여 캐릭터를 생성하므로, 시점이 바뀌거나 긴 시간이 흐르면 캐릭터의 세부 특징이 변하는 정체성 표류(Identity Drift) 문제가 발생한다. 또한, 대화 상황에서 상대방의 말을 듣고 반응하는 '듣기 동작'에 대한 학습이 부족하여 상호작용이 부자연스럽다는 한계가 있다.
LPM 1.0은 이를 해결하기 위해 Transformer 기반의 Diffusion 모델에 멀티모달 컨디셔닝을 결합했다. 캐릭터의 외형 정보를 단일 이미지가 아닌 다각도 전신 이미지와 표정 템플릿 세트로 구성하여 Self-Attention 레이어에 직접 주입한다. 이는 모델이 캐릭터의 3D 구조와 세부 표정 변화 범위를 미리 인지한 상태에서 비디오를 생성하게 함으로써 장시간 생성 시에도 정체성을 유지하게 만든다.
결과적으로 모델은 단순히 입 모양을 맞추는 수준을 넘어, 입력된 오디오의 맥락에 맞춰 고개를 끄덕이거나 시선을 처리하는 등 실제 사람과 유사한 반응형 동작을 실시간으로 생성할 수 있게 된다.
방법론
Base LPM은 14B 이미지-투-비디오 모델을 기반으로 3B 파라미터의 오디오 교차 주의(Cross-Attention) 블록을 추가하여 총 17B 규모로 설계했다. 전체 구조는 Diffusion Transformer(DiT) 아키텍처를 따르며, 텍스트 설명, 말하기 오디오, 듣기 오디오를 각각의 인코더를 통해 입력받는다.
효율적인 연산을 위해 인터리브드(Interleaved) 오디오 주입 전략을 사용한다. 짝수 레이어에서는 말하기 오디오를, 홀수 레이어에서는 듣기 오디오를 처리하도록 분리하여 파라미터 수를 50% 절감하면서도 각 모달리티의 특성에 맞는 동작 생성을 유도한다. [오디오 특징값 입력] → [레이어별 교차 주의 연산] → [비디오 잠재 벡터 갱신] → [동작과 음성의 동기화] 순으로 계산이 이루어진다.
실시간 배포를 위해 Base LPM을 Online LPM으로 증류(Distillation)한다. 4단계의 커리큘럼 학습을 통해 2-step 추론이 가능한 백본과 1-step 추론이 가능한 리파이너 구조로 변환한다. [가우시안 노이즈 입력] → [백본의 2단계 노이즈 제거] → [리파이너의 1단계 세부 묘사 복원] → [최종 비디오 프레임 출력] 과정을 거쳐 실시간성을 확보한다.
주요 결과
LPM-Bench 평가 결과, Base LPM(720P)은 기존 SOTA 모델인 Kling-Avatar-2 대비 정체성 일관성에서 58.5%, 텍스트 제어력에서 55.7%의 선호도를 얻으며 압도적인 성능을 보였다. 특히 10분 이상의 장기 비디오 생성에서도 시각적 품질 저하 없이 안정적인 생성이 가능함을 입증했다.
Online LPM(480P)은 실시간 추론 환경에서 LiveAvatar 및 SoulX와 비교되었으며, 동작 역동성(Motion Dynamics) 측면에서 98.1%라는 매우 높은 선호도를 기록했다. 이는 증류 과정을 거쳤음에도 불구하고 원본 모델의 풍부한 표현력을 성공적으로 유지했음을 의미한다.
정량적 지표에서 Online LPM은 단일 GPU 기준 프레임당 약 0.35초의 지연 시간을 달성하여 24fps 스트리밍 환경에 적합한 실시간 성능을 확보했다.
기술 상세
LPM 1.0은 Flow Matching 기반의 다단계 학습 전략을 채택했다. 초기에는 말하기 오디오 경로를 먼저 학습시킨 후, 점진적으로 듣기 오디오와 텍스트 조건을 결합하여 멀티모달 정렬을 수행한다. 정체성 유지를 위해 3D Rotary Position Embedding(RoPE) 공간에 참조 이미지 토큰을 특정 오프셋으로 배치하여 비디오 토큰과 함께 Self-Attention을 수행하도록 설계했다.
Online LPM의 증류에는 Distribution Matching Distillation(DMD) 프레임워크를 사용했다. 특히 노이즈가 섞인 이력(Noisy-history) KV 캐시를 조건으로 사용하는 온-폴리시(On-policy) 학습을 통해 자기 회귀적 생성 과정에서 발생하는 오류 누적 문제를 완화했다. 추론 시에는 슬라이딩 윈도우 디코딩과 싱크 토큰(Sink Token) 전략을 결합하여 메모리 사용량을 제한하면서도 무한한 길이의 비디오 생성을 지원한다.
한계점
현재 모델은 단일 캐릭터의 정면 응시 상황에 최적화되어 있어, 복잡한 사회적 상호작용이나 다자간 대화, 강한 3D 일관성이 요구되는 복잡한 환경에서의 동작은 아직 제한적이다. 또한 장기적인 대화 문맥을 기억하는 메모리 구조는 포함되어 있지 않다.
실무 활용
실시간 상호작용이 필요한 디지털 휴먼 및 가상 캐릭터 서비스에 즉시 적용 가능한 수준의 기술이다.
- 실시간 대화형 AI 아바타 및 가상 비서 서비스
- 게임 내에서 플레이어와 실시간으로 대화하고 반응하는 NPC
- 라이브 스트리밍을 진행하는 버추얼 유튜버 및 캐릭터
- 언어 학습을 위한 대화형 AI 튜터
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.