핵심 요약
LTX-2.3은 VAE 재구축과 텍스트 커넥터 확장을 통해 세부 질감 표현과 프롬프트 이해도를 높이고, 네이티브 세로 모드 및 개선된 I2V 기능을 제공한다.
배경
LTX-2 출시 이후 500만 건의 다운로드를 통해 수집된 사용자 피드백을 바탕으로, 화질 저하와 I2V 모션 오류를 해결한 LTX-2.3 업데이트 내용을 공유했다.
의미 / 영향
LTX-2.3은 사용자 피드백을 기반으로 비디오 생성 모델의 고질적 문제인 I2V 정지 현상과 세부 묘사 부족을 해결하는 데 집중했다. 특히 네이티브 세로 모드 지원은 AI 비디오 생성이 단순한 기술 시연을 넘어 숏폼 마케팅 등 실제 상업적 활용 단계로 진입했음을 시사한다.
실용적 조언
- 모바일용 숏폼 영상을 제작할 때 별도의 편집 없이 1080x1920 해상도를 직접 설정하여 사용한다
- 복잡한 구도나 여러 인물이 등장하는 장면을 생성할 때 더 상세한 프롬프트를 작성하여 개선된 이해도를 활용한다
- ComfyUI 사용자라면 공식 배포된 최신 레퍼런스 워크플로우를 다운로드하여 최적화된 설정을 적용한다
언급된 도구
LTX-2.3추천
비디오 생성 모델
ComfyUI추천
노드 기반 AI 워크플로우 도구
섹션별 상세
VAE 아키텍처 재구축을 통한 화질 개선. 고품질 데이터와 개선된 레시피로 학습된 새로운 VAE를 도입하여 잠재 공간(Latent Space)의 효율성을 높였다. 이를 통해 머리카락이나 물체의 가장자리 디테일처럼 기존 모델에서 뭉개지기 쉬웠던 미세한 질감을 훨씬 선명하게 보존한다. 저해상도 생성 시에도 텍스처가 뭉개지지 않아 후처리 업스케일링에 대한 의존도를 크게 낮췄다.

텍스트 커넥터 확장 및 프롬프트 이해도 향상. 프롬프트 인코딩과 생성 모델 사이를 연결하는 텍스트 커넥터의 용량을 늘리고 아키텍처를 개선했다. 복잡한 프롬프트 입력 시 발생하던 드리프트 현상을 줄여 사용자의 의도를 더 정확하게 반영한다. 특히 다수의 피사체가 등장하거나 피사체 간의 공간적 관계, 구체적인 스타일 지시가 포함된 경우의 정확도가 눈에 띄게 향상됐다.
I2V 모션 및 시각적 일관성 최적화. 기존 LTX-2에서 가장 많이 보고된 문제인 이미지-비디오 변환 시의 화면 멈춤 현상을 해결하기 위해 학습 프로세스를 전면 수정했다. 단순한 카메라 이동 효과를 넘어 실제적인 움직임을 생성하며, 영상 내에서 갑작스러운 컷 전환이 발생하는 빈도를 줄였다. 입력 프레임의 특징을 끝까지 유지하면서도 자연스러운 모션을 구현하는 데 집중했다.
네이티브 세로 모드(Portrait Mode) 공식 지원. 틱톡, 릴스, 쇼츠 등 모바일 중심 콘텐츠 환경에 맞춰 1080x1920 해상도의 세로형 영상 생성을 지원한다. 기존 가로 영상을 단순히 자르는 방식이 아니라, 실제 세로형 데이터를 직접 학습하여 세로 구도에 최적화된 결과물을 낸다. 사용자는 해상도 설정만으로 고품질의 세로 영상을 즉시 생성할 수 있다.
실무 Takeaway
- VAE 재구축으로 머리카락 등 미세한 질감 표현력이 비약적으로 향상됐다
- 텍스트 커넥터 용량 확장을 통해 복잡한 프롬프트와 공간 관계 이해도가 개선됐다
- I2V 생성 시 화면이 멈추거나 단순 팬 효과만 나던 고질적 문제를 해결했다
- 1080x1920 해상도의 네이티브 세로 모드를 지원하여 모바일 콘텐츠 제작 편의성을 높였다
- 오디오 데이터 필터링과 새로운 보코더 도입으로 사운드 노이즈와 아티팩트를 줄였다
AI 분석 전체 내용 보기
AI 요약 · 북마크 · 개인 피드 설정 — 무료