deck2video: 마크다운 슬라이드를 나레이션 비디오로 자동 변환하는 도구

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

deck2video는 마크다운 기반 슬라이드 제작 도구인 Marp와 Slidev를 활용하여 나레이션이 포함된 발표 영상을 자동으로 생성하는 오픈소스 프로젝트이다. 사용자가 슬라이드 내 HTML 주석으로 스피커 노트를 작성하면, Chatterbox TTS 엔진이 이를 음성으로 변환하고 슬라이드 이미지와 결합하여 비디오를 제작한다. 특히 사용자의 목소리 샘플을 통한 보이스 클로닝 기능을 지원하여 개인화된 나레이션을 입힐 수 있는 것이 특징이다. 전체 프로세스는 포맷 감지, 렌더링, 음성 합성, 비디오 조립의 4단계로 구성되며 CLI를 통해 간편하게 실행 가능하다.

배경

Python 3.11, Node.js 및 npm, ffmpeg, Marp 또는 Slidev CLI

대상 독자

마크다운으로 발표 자료를 관리하며 자동화된 나레이션 영상 제작이 필요한 개발자 및 기술 교육자

의미 / 영향

이 도구는 기술 문서나 발표 자료를 영상 콘텐츠로 전환하는 비용을 획기적으로 낮춘다. 특히 목소리 복제 기술을 결합하여 개인화된 교육 영상을 대량으로 자동 생성할 수 있는 가능성을 제시하며, 마크다운 기반의 워크플로우를 영상 제작 영역까지 확장시킨다.

섹션별 상세

마크다운 문서 내의 HTML 주석()을 스피커 노트로 인식하여 이를 기반으로 나레이션을 자동 생성한다. Marp와 Slidev 포맷을 모두 지원하며, 문서 상단의 프론트매터를 통해 포맷을 자동으로 감지하거나 사용자가 직접 지정할 수 있다.

bash

python -m deck2video presentation.md --voice voice-sample.wav

목소리 복제용 샘플 파일을 사용하여 마크다운 슬라이드를 비디오로 변환하는 기본 명령어

deck2video 도구의 데모 영상 썸네일 이미지 — Screenshot마크다운 슬라이드가 실제 나레이션이 포함된 비디오로 변환된 결과물을 보여주는 데모 링크이다. 도구가 생성하는 최종 결과물의 품질과 형태를 시각적으로 확인할 수 있게 한다.

Chatterbox TTS 엔진을 탑재하여 고품질 음성 합성을 수행하며, --voice 옵션에 WAV 파일을 입력하면 해당 화자의 목소리를 복제하여 나레이션에 적용한다. 다국어 지원 및 발음 교정을 위한 별도의 JSON 매핑 기능을 제공하여 기술 용어 오독 문제를 해결한다.

json

{
  "kubectl": "cube control",
  "nginx": "engine X",
  "PostgreSQL": "post gress Q L",
  "Kubernetes": "koo ber net eez"
}

기술 용어의 정확한 발음을 위해 제공하는 발음 재정의 JSON 파일 예시

정적 슬라이드 이미지 대신 실제 화면 녹화 영상인 스크린캐스트를 삽입할 수 있는 기능을 지원한다. 마크다운 내에 video 지시어를 추가하면 해당 슬라이드 위치에 영상이 삽입되며, 영상의 원본 오디오는 제거되고 작성된 스피커 노트의 TTS 음성으로 대체된다.

markdown

--- 
marp: true 
--- 
# Welcome 
<!-- 안녕하세요, 발표를 시작합니다. -->
--- 
# Architecture 
<!-- video: demo.mp4 -->
<!-- 시스템 아키텍처를 설명하는 데모 영상입니다. -->

스피커 노트와 비디오 삽입 지시어가 포함된 마크다운 슬라이드 작성 예시

대화형 모드(--interactive)를 통해 전체 비디오 생성 전 각 슬라이드별 음성 합성 결과를 미리 듣고 승인하거나 재생성할 수 있는 워크플로우를 제공한다. 또한 특정 슬라이드만 수정이 필요한 경우 --redo-slides 옵션으로 해당 부분만 다시 합성하여 전체 비디오를 재조립할 수 있어 작업 시간을 단축시킨다.

Python 3.11 환경에서 동작하며 내부적으로 Node.js 기반의 marp-cli 또는 slidev-cli를 호출하여 슬라이드를 렌더링한다. 최종 비디오 조립에는 ffmpeg를 사용하며, 음성 길이에 맞춰 슬라이드 노출 시간을 자동으로 조절하거나 음성이 없는 슬라이드에 정적 대기 시간을 부여하는 기능을 포함한다.

실무 Takeaway

마크다운 슬라이드에 HTML 주석으로 대본을 추가하고 deck2video를 실행하면 별도의 녹음 장비 없이도 전문적인 발표 영상을 제작할 수 있다.
voice 파라미터에 본인의 짧은 음성 샘플을 입력하여 AI가 본인의 목소리로 나레이션을 수행하도록 설정함으로써 콘텐츠의 일관성을 유지할 수 있다.
기술 용어 발음이 어색할 경우 pronunciations.json 파일을 생성하여 'kubectl'을 'cube control'로 읽도록 지정하는 방식으로 TTS 품질을 세밀하게 조정 가능하다.

언급된 리소스

GitHubdeck2video GitHub Repository