변별력 있는 텍스트 표현을 통한 클래스 레이블에서 텍스트로의 원스텝 이미지 생성 확장

기존의 초고속 이미지 생성 기술인 MeanFlow를 단순 분류 레이블이 아닌 복잡한 문장 입력으로 확장하여 실용성을 극대화했다. 강력한 LLM 기반 인코더의 특정 의미론적 특성이 원스텝 생성의 품질을 결정짓는 핵심 요소임을 밝혀내어 향후 효율적인 생성 모델 설계의 이정표를 제시한다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

MeanFlow 기반 텍스트-투-이미지 생성 최초 실현

기존에 클래스 레이블 조건에 국한되었던 MeanFlow 프레임워크를 유연한 텍스트 입력 조건으로 확장하여 단 한 번의 추론 단계로 고품질 이미지를 생성하는 EMF 모델을 구현했다.

텍스트 표현의 변별력과 분리성 중요도 규명

원스텝 생성 성능이 텍스트 인코더의 Discriminability(변별력)와 Disentanglement(분리성)에 직결됨을 체계적으로 분석했다. 특히 LLM 기반 인코더가 생성 과정의 복잡한 궤적을 단순화하는 데 필수적임을 입증했다.

양방향 시간 조건화 아키텍처 도입

MeanFlow의 이론적 배경에 맞춰 현재 시간과 간격 길이를 동시에 인코딩하는 이중 시간 임베딩 레이어를 설계하여 텍스트 조건 하에서도 안정적인 평균 속도장 학습을 가능하게 했다.

핵심 아이디어 이해하기

기존의 Diffusion 모델은 노이즈에서 이미지를 만들 때 수십 번의 미세 조정 단계를 거치며 경로를 수정한다. 반면 MeanFlow는 시작점과 끝점 사이의 '평균 속도'를 직접 예측하여 단 한 번의 단계(One-step)로 이미지를 생성하려 한다. 하지만 텍스트 조건은 단순한 클래스 레이블(예: '고양이')보다 훨씬 복잡한 의미 구조를 가지기 때문에, 모델이 한 번에 가야 할 방향을 찾기가 매우 어렵다.

이 논문은 이 문제를 해결하기 위해 텍스트 인코더의 역할을 재정의한다. 텍스트 임베딩이 공간상에서 서로 명확히 구분(Discriminability)되고, 각 단어의 의미가 엉키지 않고 잘 분리(Disentanglement)되어 있을수록 모델이 따라가야 할 생성 경로가 직선에 가깝게 단순해진다. 경로가 단순해지면 단 한 번의 큰 걸음으로도 정확한 목적지에 도달할 수 있게 된다.

결과적으로 강력한 LLM 기반 인코더를 활용해 복잡한 문장을 정교한 지도 데이터로 변환함으로써, 기존 모델들이 여러 번의 수정 단계를 거쳐야 도달하던 고품질 결과물을 단 한 번의 연산으로 출력할 수 있게 되었다.

관련 Figure

#1Screenshot
BLIP3o-NEXT 인코더가 다른 인코더(SANA, T5 등)에 비해 쿼리 이미지의 의미를 가장 정확하게 파악하여 유사한 텍스트를 찾아낸다. 이는 해당 인코더가 높은 변별력(Discriminability)을 가지고 있음을 시각적으로 증명한다.
쿼리 이미지와 유사한 텍스트를 각 인코더별로 검색한 결과 비교

방법론

전체적인 접근 방식은 MeanFlow 프레임워크를 텍스트-투-이미지(T2I) 작업에 적응시키는 것이다. 핵심은 고정된 클래스 임베딩 대신 LLM(BLIP3o-NEXT 등)에서 추출한 고차원 텍스트 특징을 조건부 입력으로 사용하는 것이다. 이를 위해 유동적인 텍스트 의미를 시각적 공간에 정밀하게 매핑할 수 있는 변별력 있는 표현 공간을 활용한다.

핵심 메커니즘으로 양방향 시간 조건화(Bidirectional Time Conditioning)를 구현했다. 기존 Flow Matching이 현재 시간 t만을 참조하는 것과 달리, EMF는 구간 길이(t-r)를 인코딩하는 phi_interval과 세그먼트 종료 시간 t를 인코딩하는 phi_end를 복제하여 결합한다. [시작 시간 r과 종료 시간 t를 입력으로] → [두 임베딩의 합산 연산을 수행해] → [phi_cond(t, r)를 얻고] → [이 값이 속도 네트워크 f_theta의 시간적 가이드 역할을 수행한다].

학습 전략으로는 적응형 타임스텝 샘플링을 사용한다. 학습 진행도 p에 따라 균등 분포와 로짓-노멀 분포 사이를 보간하며 t와 r을 샘플링한다. [학습 초기에는 짧은 구간 위주로 학습하다가] → [점진적으로 긴 구간의 비율을 높이는 연산을 수행해] → [안정적인 평균 속도장(Mean Velocity Field)을 형성하고] → [단거리와 장거리 생성 경로 모두에서 모델의 예측 정확도를 높인다].

주요 결과

GenEval 벤치마크에서 EMF 모델은 단 4번의 샘플링 단계만으로 0.90점을 기록했다. 이는 30단계를 사용하는 기본 BLIP3o-NEXT 모델의 0.91점에 근접하는 수치이며, 기존의 모든 증류(Distilled) 모델들을 능가하는 성능이다. 특히 1단계(One-step) 생성에서도 0.74점을 기록하며 실용적인 수준의 품질을 확보했다.

DPG-Bench 실험 결과, EMF는 복잡한 속성 결합과 공간 관계를 포함하는 긴 프롬프트에서도 기존 SOTA 모델인 SANA-Sprint(0.77)보다 높은 0.81점을 4단계 추론만으로 달성했다. 이는 텍스트 인코더의 분리성(Disentanglement)이 복잡한 지시사항 이행에 결정적인 기여를 했음을 보여준다.

효율성 측면에서 H200 GPU 기준, 30단계의 기존 모델이 이미지 생성에 1.24초가 소요되는 반면, EMF는 4단계에서 0.22초, 1단계에서 0.08초 만에 생성을 완료하여 추론 속도를 약 15배 이상 향상시켰다.

관련 Figure

#2Chart
4단계 샘플링이 가장 빠르게 높은 성능에 도달하며, 1단계 샘플링 또한 학습이 진행됨에 따라 안정적으로 성능이 향상됨을 보여준다. 이는 제안된 방법론의 학습 안정성과 효율성을 나타낸다.
학습 단계에 따른 1, 2, 4단계 샘플링의 GenEval 점수 변화 그래프

기술 상세

EMF의 아키텍처는 Flow Matching 기반의 DiT 구조를 계승하되, 텍스트 조건부 학습의 불안정성을 해결하기 위해 JVP(Jacobian-Vector Product)를 활용한 정지 그래디언트(Stop-gradient) 최적화 기법을 적용했다. 이는 평균 속도와 순간 속도 사이의 일관성을 강제하는 MeanFlow 목적 함수를 안정화한다.

연구진은 텍스트 인코더의 두 가지 핵심 속성을 정의했다. 첫째, Discriminability는 텍스트와 이미지 임베딩 간의 코사인 유사도 정렬을 통해 측정되며, 이것이 높을수록 생성 궤적의 초기 방향 설정이 정확해진다. 둘째, Disentanglement는 문장 단축 시 임베딩 거리 변화를 통해 측정되며, 이것이 높을수록 복잡한 속성들이 엉키지 않고 정확하게 이미지에 반영된다.

실험적으로 T5나 SANA-1.5 인코더보다 BLIP3o-NEXT와 같이 이미지-텍스트 정렬이 명시적으로 학습된 LLM 인코더가 MeanFlow 프레임워크에서 압도적으로 우수한 수렴 성능을 보임을 확인했다. 이는 원스텝 생성이 단순한 생성 능력을 넘어 고도의 의미론적 이해를 필요로 함을 시사한다.

관련 Figure

#5Diagram
단순한 클래스 조건(왼쪽)은 궤적이 매끄럽고 직선에 가깝지만, 복잡한 텍스트 조건(오른쪽)은 궤적이 구불구불하게 나타난다. 이 구불구불한 경로를 직선화하는 것이 원스텝 생성의 핵심 과제임을 설명한다.
클래스 레이블 조건과 텍스트 조건에서의 노이즈 제거 궤적 비교 다이어그램

한계점

SANA-1.5와 같이 특정 도메인에 치우친 데이터로 학습된 텍스트 인코더의 경우, MeanFlow 미세 조정 시 도메인 불일치로 인해 학습 불안정성이 발생할 수 있음을 언급했다. 또한 1단계 생성 시에는 여전히 복잡한 텍스트의 모든 세부 사항을 완벽하게 포착하는 데 한계가 있을 수 있다.

실무 활용

단 한 번의 추론으로 고품질 이미지를 생성할 수 있어 실시간 이미지 생성 서비스나 모바일 기기 등 저사양 환경에서의 생성 AI 도입에 매우 적합하다.

실시간 인터랙티브 디자인 도구 및 라이브 이미지 편집 서비스
온디바이스(On-device) 모바일 AI 이미지 생성 애플리케이션
대규모 이미지 데이터셋 생성을 위한 저비용 인프라 구축

코드 공개 여부: 공개

코드 저장소 보기

키워드

MeanFlow(평균 흐름)One-step Generation(원스텝 생성)T2I(텍스트-투-이미지)LLM Text Encoder(LLM 텍스트 인코더)Discriminability(변별력)Flow Matching(흐름 매칭)

변별력 있는 텍스트 표현을 통한 클래스 레이블에서 텍스트로의 원스텝 이미지 생성 확장

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

MeanFlow 기반 텍스트-투-이미지 생성 최초 실현

텍스트 표현의 변별력과 분리성 중요도 규명

양방향 시간 조건화 아키텍처 도입

핵심 아이디어 이해하기

관련 Figure

방법론

주요 결과

관련 Figure

기술 상세

관련 Figure

한계점

실무 활용

단 한 번의 추론으로 고품질 이미지를 생성할 수 있어 실시간 이미지 생성 서비스나 모바일 기기 등 저사양 환경에서의 생성 AI 도입에 매우 적합하다.

실시간 인터랙티브 디자인 도구 및 라이브 이미지 편집 서비스
온디바이스(On-device) 모바일 AI 이미지 생성 애플리케이션
대규모 이미지 데이터셋 생성을 위한 저비용 인프라 구축

코드 공개 여부: 공개

코드 저장소 보기

키워드

MeanFlow(평균 흐름)One-step Generation(원스텝 생성)T2I(텍스트-투-이미지)LLM Text Encoder(LLM 텍스트 인코더)Discriminability(변별력)Flow Matching(흐름 매칭)

변별력 있는 텍스트 표현을 통한 클래스 레이블에서 텍스트로의 원스텝 이미지 생성 확장

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

변별력 있는 텍스트 표현을 통한 클래스 레이블에서 텍스트로의 원스텝 이미지 생성 확장

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드