핵심 요약
Bark.com은 소셜 미디어 광고 제작의 확장성 문제를 해결하기 위해 AWS와 협력하여 AI 기반 비디오 생성 솔루션을 개발했다. 이 시스템은 Amazon Bedrock의 Claude 3.7을 활용해 고객 세그먼트를 분석하고 스토리보드를 생성하며, SageMaker에서 Wan 2.1 모델을 구동하여 실제 비디오를 합성한다. 특히 참조 이미지 전파 기술을 도입하여 다중 장면 간의 시각적 일관성을 확보하고 제작 시간을 수주에서 수 분 단위로 단축했다. 결과적으로 기존 수동 제작 방식 대비 서사적 일관성과 독창성 지표에서 더 높은 점수를 기록하며 실질적인 비즈니스 가치를 입증했다.
배경
AWS 기본 지식, Generative AI 및 Diffusion 모델 이해, 분산 학습/추론 개념
대상 독자
AI 기반 콘텐츠 생성 파이프라인을 구축하려는 ML 엔지니어 및 솔루션 아키텍트
의미 / 영향
이 솔루션은 고품질 비디오 생성의 고질적 문제인 시각적 일관성을 아키텍처적으로 해결하여, 마케팅 자동화의 실질적 가능성을 입증했다. 특히 오픈소스 모델과 클라우드 네이티브 서비스를 결합한 하이브리드 접근 방식은 기업용 AI 서비스 구축의 표준 모델이 될 수 있다.
섹션별 상세
전체 아키텍처는 데이터 저장(S3), 프로세싱(Lambda/Step Functions), GPU 연산(SageMaker/ECS), UI 레이어로 구성된다. Wan 2.1 14B 모델을 SageMaker p4de.24xlarge 인스턴스에서 8-way 텐서 병렬 처리를 통해 효율적으로 서빙한다. FSDP 샤딩 기법을 적용하여 텍스트 인코더와 디퓨전 트랜스포머를 GPU 메모리 내에 유지하며 추론 속도를 최적화했다.

창의적 아이디어 파이프라인은 고객 설문 데이터를 분석해 페르소나를 생성하고, Claude 3.7을 이용해 창의적 브리프와 상세 스토리보드를 도출한다. 이 과정에서 Chain-of-Thought 추론과 높은 Temperature 설정을 통해 다양하고 논리적인 스토리를 생성한다. 스토리보드 정제 단계에서는 확률적 특징 샘플링을 통해 고객 세그먼트의 특성을 무작위로 강조하며 콘텐츠의 다양성을 확보한다.
비디오의 시각적 일관성을 위해 시맨틱과 비주얼의 이중 제어 프레임워크를 도입했다. LLM이 추출한 요소별 블루프린트를 기반으로 프롬프트를 생성하고, Segment Anything Model(SAM)로 추출한 참조 이미지를 다음 장면 생성에 전달하여 캐릭터와 배경의 변형을 최소화한다. Amazon Nova Premier를 사용해 참조로 사용할 최적의 프레임을 식별하는 과정을 포함한다.

품질 보증을 위해 LLM-as-a-judge 루프를 구현하여 서사 준수, 시각적 품질, 브랜드 일관성을 평가한다. 기준 미달 시 자동으로 재생성을 트리거하며, 최종 결과물은 15-30초 분량의 광고를 약 12-15분 내에 완성한다. 실험 결과 AI 생성 광고가 기존 수동 제작물보다 서사적 일관성에서 6.9점, 독창성에서 6.5점을 기록하며 더 우수한 성능을 보였다.
실무 Takeaway
- 다중 장면 비디오 생성 시 참조 이미지 전파(Reference Propagation) 기술을 적용하면 캐릭터와 환경의 시각적 일관성을 수동 제작 수준으로 유지할 수 있다.
- Wan 2.1과 같은 대규모 비디오 모델을 프로덕션에 배포할 때 8-way 텐서 병렬 처리와 FSDP 샤딩을 활용하면 GPU 메모리 한계를 극복하고 추론 속도를 높일 수 있다.
- 콘텐츠 생성 파이프라인에 LLM-as-a-judge 평가 루프를 통합하면 수동 검토 비용을 줄이면서도 브랜드 가이드라인에 부합하는 고품질 결과물을 반복적으로 얻을 수 있다.
AI 분석 전체 내용 보기
AI 요약 · 북마크 · 개인 피드 설정 — 무료