RTX 3090에서 QwenTTS와 Wan 2.2 S2V를 활용한 로컬 음성 및 비디오 생성 테스트

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

RTX 3090 환경에서 QwenTTS로 음성을 복제하고 Wan 2.2 S2V 모델을 통해 립싱크 비디오를 생성하는 로컬 AI 워크플로우를 공유했다.

배경

RTX 3090 하드웨어 환경에서 QwenTTS와 Wan 2.2 S2V 모델을 결합하여 로컬에서 음성 복제 및 비디오 립싱크를 구현한 결과를 공유하기 위해 작성됐다.

의미 / 영향

이 사례는 고성능 소비자용 하드웨어를 통해 클라우드 서비스 없이도 수준 높은 AI 아바타 제작이 가능함을 시사한다. 특히 오픈소스 모델들의 조합으로 상용 서비스에 준하는 립싱크 품질을 확보할 수 있다는 점이 확인됐다.

커뮤니티 반응

대체로 긍정적이며 로컬 환경에서의 실행 속도와 VRAM 점유율에 대한 관심이 높다.

실용적 조언

VRAM 24GB 이상 환경에서 Wan 2.2 S2V 모델 사용을 권장한다.
ComfyUI-WanVideoWrapper를 통해 복잡한 S2V 설정을 간소화할 수 있다.

섹션별 상세

하드웨어 구성 및 환경에 대해 RTX 3090 24GB VRAM과 96GB 시스템 RAM을 사용하여 로컬 환경에서 고성능 AI 모델을 구동했다. 24GB의 넉넉한 비디오 메모리는 Wan 2.2와 같은 대형 비디오 생성 모델을 실행하는 데 필수적인 요소로 작용했다. 시스템 메모리 또한 96GB를 확보하여 데이터 로딩 및 처리 과정에서의 병목 현상을 최소화했다.

음성 복제 기술은 QwenTTS를 활용하여 특정 유튜브 영상의 음성을 기반으로 커스텀 보이스를 로컬에서 생성했다. 1038lab의 ComfyUI-QwenTTS 익스텐션을 사용하여 텍스트를 복제된 음성으로 변환하는 워크플로우를 구축했다. 이 방식은 클라우드 API에 의존하지 않고도 개인화된 고품질 음성 합성이 가능하다는 장점이 있다.

비디오 립싱크 구현은 Wan 2.2 S2V 모델을 WanVideoWrapper를 통해 실행하여 음성 데이터에 맞춘 입모양과 표정 변화를 비디오로 생성했다. ChatGPT로 생성한 초기 이미지를 기반으로 음성 신호를 입력받아 자연스러운 움직임을 만들어내는 과정을 거쳤다. kijai의 워크플로우를 활용하여 컨텍스트 윈도우 설정을 최적화하고 안정적인 비디오 출력을 확인했다.

실무 Takeaway

RTX 3090(24GB VRAM) 환경에서 최신 TTS 및 S2V 모델의 로컬 구동이 가능하다.
QwenTTS는 커스텀 음성 복제를 통해 개인화된 오디오 생성을 지원한다.
Wan 2.2 S2V 모델은 음성 데이터를 기반으로 정교한 비디오 립싱크 결과물을 제공한다.
ComfyUI 워크플로우를 통해 복잡한 AI 모델 간의 연동 및 자동화가 용이하다.

언급된 도구

QwenTTS추천링크

음성 합성 및 복제

Wan 2.2 S2V추천링크

음성 기반 비디오 생성 및 립싱크

ComfyUI추천

노드 기반 AI 워크플로우 도구

언급된 리소스

GitHubComfyUI-QwenTTS Workflow

GitHubComfyUI-WanVideoWrapper S2V Workflow