핵심 요약
디퓨전 모델(Diffusion models)은 고충실도 이미지, 비디오 및 오디오 생성 분야에서 괄목할 만한 발전을 이루었으나, 추론 과정에서 막대한 계산 비용이 발생한다. 기존의 분산 병렬 처리 기반 가속화 방법들은 눈에 띄는 생성 아티팩트(artifacts)가 발생하거나 GPU 수에 비례하는 실질적인 가속을 달성하지 못하는 한계가 있다. 이에 본 연구에서는 새로운 데이터 병렬 전략인 조건 기반 파티셔닝(condition-based partitioning)과 최적의 파이프라인 스케줄링 방법인 적응형 병렬 전환(adaptive parallelism switching)을 결합한 하이브리드 병렬 처리 프레임워크를 제안하여, 조건부 디퓨전 모델의 생성 지연 시간을 줄이고 높은 생성 품질을 유지한다. 핵심 아이디어는 (i) 조건부 및 비조건부 노이즈 제거 경로(denoising paths)를 새로운 데이터 분할 관점으로 활용하는 것과 (ii) 두 경로 사이의 노이즈 제거 불일치에 따라 최적의 파이프라인 병렬 처리를 적응적으로 활성화하는 것이다. 제안된 프레임워크는 두 개의 NVIDIA RTX 3090 GPU를 사용하여 SDXL에서 2.31배, SD3에서 2.07배의 지연 시간 단축을 달성하는 동시에 이미지 품질을 보존했다. 이러한 결과는 U-Net 기반 디퓨전 모델과 DiT(Diffusion Transformer) 기반 플로우 매칭(flow-matching) 아키텍처 전반에 걸친 본 접근 방식의 범용성을 확인시켜 준다. 또한, 고해상도 합성 환경에서도 기존 방법보다 우수한 가속 성능을 보여준다.
핵심 기여
조건 기반 데이터 파티셔닝 전략
분류기 없는 가이던스(Classifier-Free Guidance)에서 발생하는 조건부 및 비조건부 노이즈 제거 경로를 별도의 데이터 병렬 단위로 취급하여 GPU 자원을 효율적으로 분배한다.
적응형 병렬 전환 스케줄링
추론 단계별로 조건부 및 비조건부 경로 간의 계산량 차이를 분석하여 최적의 파이프라인 병렬화 시점을 동적으로 결정함으로써 유휴 자원을 최소화한다.
아키텍처 범용성 확보
기존 U-Net 구조뿐만 아니라 최신 DiT(Diffusion Transformer) 기반의 플로우 매칭 아키텍처에서도 성능 저하 없이 가속화가 가능함을 입증했다.
방법론
조건부 생성 시 필수적인 분류기 없는 가이던스(Classifier-Free Guidance)의 두 가지 연산 경로를 데이터 병렬화의 단위로 활용하는 조건 기반 파티셔닝을 도입했다. 여기에 노이즈 제거 단계에 따라 병렬 처리 방식을 동적으로 변경하는 적응형 병렬 전환 알고리즘을 적용하여 파이프라인의 효율성을 극대화했다.
주요 결과
NVIDIA RTX 3090 GPU 2개를 사용한 실험에서 SDXL 모델은 2.31배, SD3 모델은 2.07배의 추론 속도 향상을 기록했다. 특히 고해상도 이미지 생성 시 기존 분산 처리 기법들보다 뛰어난 가속 효율을 보였으며, 원본 모델과 대등한 수준의 품질을 유지했다.
시사점
멀티 GPU 환경에서 디퓨전 모델을 서비스하는 실무자들에게 추가적인 모델 최적화 없이도 즉각적인 속도 향상을 제공할 수 있다. 특히 실시간 이미지 생성이나 고해상도 비디오 생성 서비스의 인프라 비용 절감에 기여할 것으로 예상된다.
키워드
섹션별 상세
조건 기반 데이터 파티셔닝 전략
적응형 병렬 전환 스케줄링
아키텍처 범용성 확보
AI 요약 · 북마크 · 개인 피드 설정 — 무료