CohereAI/ML조회 1회

Foveated Diffusion: 인간의 시각 특성을 활용한 효율적인 이미지 및 비디오 생성

인간의 시각적 민감도가 시선 중심부에 집중된다는 점에 착안하여, 시선 영역은 고해상도로 주변부는 저해상도로 토큰을 비균등하게 배분해 생성 효율을 극대화하는 Foveated Diffusion 기술을 소개한다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

Foveated Diffusion은 시선 마스크를 기반으로 토큰 밀도를 비균등하게 할당하여 시각적 품질 저하 없이 연산 속도를 이미지에서 2배, 비디오에서 4배 이상 향상시킨다. 기존 사전 학습된 모델에 LoRA 파인튜닝을 적용하여 쉽게 구현 가능하다.

배경

고해상도 이미지와 비디오 생성에 대한 수요가 늘어남에 따라 Transformer 기반 모델의 연산 복잡도가 토큰 수의 제곱에 비례하여 증가하는 문제가 발생하고 있다.

대상 독자

생성 모델의 추론 효율화에 관심 있는 AI 연구자 및 엔지니어, VR/AR 및 로보틱스 분야 개발자

의미 / 영향

이 기술은 고해상도 비디오 생성 및 실시간 인터랙티브 콘텐츠 분야의 연산 비용 문제를 해결할 실질적인 대안이 될 것이다. 특히 VR/AR 기기의 시선 추적 기술과 결합될 경우, 제한된 하드웨어 자원에서도 고품질의 가상 세계를 실시간으로 렌더링하는 데 기여할 것으로 보인다.

챕터별 상세

01:02

생성 모델의 해상도 증가와 연산 병목 현상

최근 이미지 및 비디오 생성 모델은 4K 해상도와 긴 프레임으로 발전하고 있으나 이는 처리해야 할 시각적 토큰 수의 급격한 증가를 의미한다. 현재의 Diffusion Transformer(DiT) 모델은 모든 토큰을 동일하게 중요하게 처리하며, Self-attention 연산 비용이 토큰 수의 제곱(Quadratic)으로 증가하는 구조적 한계를 가지고 있다. 이로 인해 고해상도 콘텐츠 생성 시 막대한 컴퓨팅 자원과 시간이 소요되는 병목 현상이 발생한다.

04:38

인간 시각 시스템의 중심와(Foveation) 특성

인간의 눈은 망막 전체에서 균일한 해상도를 갖지 않으며, 시선의 중심인 중심와(Fovea) 영역에서만 가장 선명한 디테일을 포착한다. 시야의 주변부로 갈수록 인지 해상도는 급격히 떨어지는데, 이는 우리가 보는 모든 영역을 고해상도로 렌더링할 필요가 없음을 시사한다. 컴퓨터 그래픽스 분야에서는 이미 VR/AR 헤드셋 등에서 시선 추적을 통해 중심부만 고화질로 그리는 Foveated Rendering 기술을 활용해 효율성을 높이고 있다.

07:45

Foveated Diffusion의 핵심 메커니즘: 마스크와 토큰화

Foveated Diffusion은 시선 위치를 나타내는 이진 마스크(M)를 입력으로 받아 토큰을 비균등하게 할당한다. 마스크의 흰색 영역(중심부)은 고해상도 패치로 촘촘하게 토큰화하고, 검은색 영역(주변부)은 2배 또는 4배 큰 패치를 사용하여 토큰 수를 대폭 줄인다. 결과적으로 전체 시퀀스 길이를 획기적으로 단축하면서도 시선이 머무는 곳의 디테일은 유지하는 가변 길이 토큰 시퀀스를 생성한다.

09:54

혼합 해상도 생성 파이프라인과 구조적 일관성 해결

생성 과정은 노이즈가 섞인 혼합 해상도 토큰 시퀀스를 DiT에 통과시켜 디노이징하는 방식으로 진행된다. 단순하게 혼합 해상도 토큰을 사용하면 해상도 불일치로 인해 객체가 중복되거나 구조가 깨지는 아티팩트가 발생한다. 연구팀은 이를 해결하기 위해 RoPE(Rotary Positional Embedding)의 위상을 토큰 해상도에 맞춰 정렬하는 Phased-Aligned Indexing 기법을 적용하여 서로 다른 해상도 간의 공간적 관계를 올바르게 학습하도록 했다.

14:39

LoRA를 활용한 효율적인 모델 학습

기존의 거대한 사전 학습 모델을 처음부터 다시 학습시키는 대신, LoRA(Low-Rank Adaptation)를 이용한 파인튜닝 방식을 채택했다. 고해상도 이미지를 다운샘플링하여 두 가지 해상도의 토큰 세트를 준비하고, 무작위로 샘플링된 시선 마스크를 적용해 혼합 해상도 시퀀스를 구성한 뒤 모델이 이를 처리하도록 학습시킨다. 이 방식은 모델 아키텍처를 변경하지 않고도 기존 모델이 혼합 해상도 토큰에 적응할 수 있게 하며 학습 비용을 최소화한다.

15:55

이미지 및 비디오 생성 결과 분석

FLUX.1 모델을 기반으로 실험한 결과, Foveated Diffusion은 전체 고해상도 생성 결과와 시각적으로 거의 구별되지 않는 품질을 보여주었다. 이미지 생성에서는 약 2배, 비디오 생성에서는 4배 이상의 속도 향상(Speedup)을 달성했다. 특히 비디오의 경우 프레임 간 시선 위치가 변하더라도 일관성 있는 콘텐츠를 생성하며, 나이브한 방식에서 나타나던 구조적 결함이 완전히 제거되었음을 확인했다.

17:43

다양한 시선 마스크 설계 전략

단순한 원형 마스크 외에도 Saliency Detection(시각적 주목도 탐지)을 통해 이미지에서 가장 중요한 영역을 자동으로 고해상도 영역으로 지정하는 전략을 사용했다. 또한 Bounding Box 정보를 활용하여 특정 객체만 고해상도로 생성하도록 유도할 수도 있다. 이러한 유연한 마스크 전략은 VR 게임, 자율주행 시뮬레이션, 로봇 조작 등 시각적 우선순위가 명확한 다양한 도메인에 응용 가능하다.

21:10

사용자 연구 및 미래 발전 방향

실제 사용자를 대상으로 한 실험에서 Foveated Diffusion으로 생성된 이미지는 전체 고해상도 이미지와 비교했을 때 선호도 차이가 거의 없는 것으로 나타났다. 향후 연구 과제로는 해상도 경계면에서 발생하는 미세한 아티팩트를 제거하기 위해 VAE 디코더 자체를 혼합 해상도에 최적화하는 방안이 논의되었다. 궁극적으로는 실시간 시선 추적과 결합된 몰입형 VR 월드 모델 구축을 목표로 한다.

용어 해설

Foveated Rendering: — 인간의 눈이 시선이 집중되는 중심부(Fovea)만 고해상도로 인식하고 주변부는 저해상도로 받아들이는 특성을 이용한 기술이다. 시선이 머무는 영역만 정밀하게 계산하고 나머지는 단순화하여 연산 자원을 효율적으로 배분함으로써 전체적인 시스템 성능을 높이는 데 기여한다.
Diffusion Transformer (DiT): — 확산 모델의 백본 구조로 U-Net 대신 Transformer 아키텍처를 사용하는 모델이다. 이미지나 비디오 데이터를 패치 단위로 토큰화하여 처리하며, 데이터 규모와 연산량 확장에 유리하여 최근 고품질 생성 모델의 표준으로 자리 잡고 있다.
RoPE: — 토큰의 상대적 위치 정보를 벡터의 회전을 통해 인코딩하는 기법이다. Transformer 모델에서 토큰 간의 거리에 따른 관계를 효과적으로 학습할 수 있게 하며, 특히 가변 길이의 시퀀스나 다양한 해상도를 다룰 때 구조적 일관성을 유지하는 데 중요하다.
Flow Matching: — 데이터 분포를 노이즈 분포로 변환하는 연속적인 경로를 직접 학습하는 생성 모델 학습 프레임워크이다. 기존 확산 모델보다 학습이 안정적이고 추론 속도가 빠르며, 고해상도 이미지 생성 모델인 FLUX 등에서 핵심 기술로 사용된다.

언급된 리소스

DemoFoveated Diffusion Project Website

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 05. 01.수집 2026. 05. 01.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.