브라우저를 카메라로 만들기: Replit의 결정론적 비디오 렌더러 구축기

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

브라우저는 실시간 시스템으로 설계되어 부하에 따라 프레임을 건너뛰거나 실제 시간(Wall-clock time)에 의존하기 때문에 고품질 비디오 캡처에 적합하지 않다. Replit은 이를 해결하기 위해 브라우저의 시간 관련 API를 몽키 패칭하여 제어하는 가상 클록 시스템을 도입했다. 이를 통해 렌더링 속도와 무관하게 모든 프레임을 16.67ms 간격으로 고정하여 60fps의 부드러운 결과물을 얻는다. 또한 헤드리스 환경의 제약을 극복하기 위해 비디오 요소를 캔버스로 대체하고 오디오를 서버 측에서 믹싱하는 복잡한 파이프라인을 구축했다.

배경

JavaScript/TypeScript, Browser Rendering Pipeline, FFmpeg, Puppeteer

대상 독자

웹 기반 비디오 생성 시스템 구축 개발자 및 AI 에이전트 활용 서비스 설계자

의미 / 영향

이 기술은 AI 에이전트가 생성한 동적인 웹 콘텐츠를 손쉽게 고품질 비디오로 변환할 수 있게 함으로써, 자동화된 콘텐츠 제작의 기술적 장벽을 낮춘다. 특히 특정 프레임워크에 종속되지 않는 범용적인 접근 방식은 웹 생태계 전반의 자원을 활용할 수 있게 한다.

섹션별 상세

브라우저의 실시간 렌더링 특성으로 인해 발생하는 프레임 드랍과 시간 불일치 문제를 해결하기 위해 가상 클록(Virtual Clock) 시스템을 도입했다. setTimeout, requestAnimationFrame, Date 등 시간 관련 API를 가로채어 제어함으로써 실제 렌더링 속도와 무관하게 일정한 프레임 간격을 유지한다.

javascript

nextFrame() {
  const loop = async () => {
    await seekCSSAnimations(currentTime); // sync CSS
    await seekMedias(); // sync videos
    currentTime += frameInterval; // tick the clock
    callIntervalCallbacks(currentTime); // fire setInterval
    callTimeoutCallbacks(currentTime); // fire setTimeout
    callRAFCallbacks(currentTime); // fire rAF
    await captureFrame(); // screenshot
    loop(); // next frame
  };
  loop();
}

가상 클록을 사용하여 프레임별로 시간을 진행시키고 콜백을 실행한 뒤 캡처하는 핵심 루프 구조

실제 시간(Real Wall-Clock Time)과 페이지가 인식하는 가상 시간(What the page sees)의 차이를 보여주는 다이어그램 — Diagram실제 렌더링에 200ms가 걸리더라도 가상 클록 시스템을 통해 페이지는 정확히 16.6ms가 흐른 것으로 인식하게 만드는 메커니즘을 설명한다. 이를 통해 실제 시스템 부하와 상관없이 완벽한 60fps 출력을 보장하는 과정을 시각화한다.

Replit의 렌더러는 특정 프레임워크에 의존하지 않고 임의의 URL을 처리할 수 있도록 설계되었다. 이는 AI 에이전트가 특정 라이브러리의 문법을 배울 필요 없이 표준 웹 기술만으로 비디오를 생성할 수 있게 하여 에이전트의 출력 품질과 범용성을 높인다.

헤드리스 브라우저 환경에서 <video> 요소의 불안정한 재생 문제를 해결하기 위해 5단계의 워크라운드를 구축했다. 비디오 소스를 서버에서 fragmented MP4로 트랜스코딩한 후, 브라우저 내에서 mp4box.js와 WebCodecs를 이용해 디코딩하여 <canvas>에 직접 렌더링하는 방식을 사용한다.

오디오 동기화를 위해 Web Audio API의 주요 노드와 메서드를 패칭하여 재생 시점, 소스 URL, 볼륨 정보를 추적한다. 추출된 오디오 데이터는 서버 측에서 FFmpeg 필터 체인을 통해 비디오와 결합되며, 이 과정에서 atrim, adelay, amix 등을 활용해 정확한 타이밍과 효과를 적용한다.

javascript

startWarmup() {
  const warmupFrame = async () => {
    if (startFlag) {
      stopWarmup();
      return;
    }
    await skipFrame();
    warmupTimerId = setTimeout(warmupFrame, 33);
  };
  warmupFrame();
}

Chrome 컴포지터의 버퍼가 유효하지 않게 되는 것을 방지하기 위해 보이지 않는 프레임을 발행하는 웜업 로직

javascript

Object.defineProperty(window, 'OffscreenCanvas', { value: undefined, writable: false });
Object.defineProperty(
  HTMLCanvasElement.prototype,
  'transferControlToOffscreen',
  { value: undefined, writable: false }
);

결정론적 렌더링을 방해할 수 있는 워커 스레드 기반의 OffscreenCanvas 기능을 비활성화하는 보안 심(Shim)

렌더링의 결정론(Determinism)을 보장하기 위해 메인 스레드 캡처 파이프라인을 우회할 수 있는 OffscreenCanvas 기능을 강제로 비활성화한다. 또한 Chrome의 컴포지터 버퍼가 유효하지 않게 되는 것을 방지하기 위해 실제 녹화 시작 전 보이지 않는 프레임을 지속적으로 발행하는 웜업(Warmup) 루프를 실행한다.

실무 Takeaway

임의의 웹 콘텐츠를 비디오로 캡처할 때 브라우저의 시간 API를 몽키 패칭하여 실제 실행 시간과 렌더링 프레임을 완전히 동기화할 수 있다.
헤드리스 환경의 비디오 재생 제약은 서버 측 트랜스코딩과 클라이언트 측 WebCodecs 디코딩을 결합한 캔버스 렌더링 파이프라인으로 극복 가능하다.
복잡한 오디오 믹싱은 브라우저 내 오디오 그래프를 추적한 뒤 서버에서 FFmpeg을 이용해 후처리하는 방식이 가장 안정적이다.

언급된 리소스

GitHubWebVideoCreator

문서Remotion

브라우저를 카메라로 만들기: Replit의 결정론적 비디오 렌더러 구축기

핵심 요약

배경

대상 독자

의미 / 영향

섹션별 상세

실무 Takeaway

언급된 리소스

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드