FlowInOne: 멀티모달 생성을 이미지 입력-이미지 출력 플로우 매칭으로 통합

기존 멀티모달 모델이 텍스트에 의존하여 시각적 추론에 한계가 있었던 것과 달리, 모든 입력을 시각적 프롬프트로 변환하여 단일 모델로 통합했다. 이를 통해 텍스트-이미지 생성부터 정밀한 이미지 편집, 물리 법칙 이해까지 하나의 시각적 공간에서 수행할 수 있는 새로운 패러다임을 제시한다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

시각 중심의 Image-in, Image-out 패러다임

텍스트 인코더와 모달리티별 브릿지를 제거하고 모든 입력을 이미지 캔버스에 렌더링된 시각적 프롬프트로 변환하여 단일 플로우 매칭 모델로 처리하는 구조를 제안한다.

FlowInOne 프레임워크 및 이중 경로 공간 적응형 변조

공유 잠재 공간 내에서 연속적인 시각적 진화를 모델링하는 플로우 매칭 프레임워크를 구축하고, 생성과 편집 작업에 따라 계산 경로를 동적으로 조정하는 Dual-Path Spatially-Adaptive Modulation 메커니즘을 도입한다.

대규모 시각 프롬프트 데이터셋 VisPrompt-5M 구축

물리 법칙 이해, 궤적 예측, 정밀 편집 등 다양한 작업을 포함하는 500만 개의 시각적 프롬프트 쌍을 구축하여 모델의 강력한 일반화 성능을 확보한다.

통합 평가 벤치마크 VP-Bench 제안

지시문 충실도, 콘텐츠 일관성, 시각적 사실성, 공간적 정밀도의 4가지 차원에서 모델 성능을 엄격하게 평가할 수 있는 1,060쌍의 큐레이션된 벤치마크를 제공한다.

관련 Figure

#1Infographic
텍스트 이미지 편집(36.39%), 텍스트-이미지 생성(42.24%)이 주를 이루며, 물리적 이해(힘, 궤적)와 시각적 마커 편집 등 정밀한 제어 작업이 포함되어 있음을 보여준다. 이는 모델이 단순 생성을 넘어 복잡한 시각적 추론을 학습할 수 있는 기반이 된다.
VisPrompt-5M 데이터셋의 8가지 데이터 유형과 구성 비율을 보여주는 다이어그램이다.

핵심 아이디어 이해하기

기존의 멀티모달 생성은 텍스트 임베딩이 시각 모델을 제어하는 비대칭적 구조를 가졌다. 이는 텍스트와 이미지라는 서로 다른 도메인 간의 정렬(Alignment) 병목 현상을 야기하며, 모델이 시각적 공간 내에서 스스로 추론하거나 생성하는 능력을 제한한다. FlowInOne은 이 문제를 해결하기 위해 모든 입력을 픽셀 공간으로 렌더링하여 '시각적 언어'로 변환하는 방식을 취한다.

핵심 원리는 입력 지시문과 출력 이미지를 동일한 구조를 가진 동형 잠재 공간(Isomorphic Latent Space)으로 매핑하는 것이다. Transformer 기반의 VAE를 통해 시각적 프롬프트가 포함된 입력 캔버스를 잠재 공간의 시작점으로 설정하고, 타겟 이미지를 종착점으로 설정한다. 그 후 플로우 매칭(Flow Matching) 기법을 사용하여 시작점에서 종착점까지의 최단 경로인 벡터 필드를 학습한다.

결과적으로 모델은 노이즈를 제거하는 복잡한 확률적 과정 대신, 시각적 지시 사항이 실제 이미지로 변해가는 결정론적인 '흐름'을 학습하게 된다. 이는 텍스트 인코더나 별도의 제어 모듈 없이도 단일 모델이 이미지 생성, 편집, 물리적 궤적 예측과 같은 복잡한 작업을 수행할 수 있게 하며, 시각적 일관성과 공간적 정밀도를 획기적으로 향상시킨다.

방법론

전체 시스템은 시각적 프롬프트 렌더링 엔진, 잠재 공간 인코더, 플로우 매칭 기반의 Transformer 백본으로 구성된다. 텍스트 지시문, 바운딩 박스, 화살표 등의 가이드를 입력 이미지 위에 직접 렌더링하여 시각적 프롬프트 캔버스 $I_v$ 를 생성한다. 이 캔버스는 사전 학습된 Janus Visual Encoder와 VAE를 통해 잠재 변수 $z_0$ 로 변환되며, 타겟 이미지 $I^*$ 는 동일한 VAE를 통해 $z_1$ 로 변환된다.

플로우 매칭 학습을 위해 시간 $t \in [0, 1]$ 에 따른 선형 보간 경로 $z_t = t z_1 + (1 - (1 - \sigma_{min})t) z_0$ 를 생성한다. 모델 $v_\theta$ 는 각 시점 $t$ 에서 타겟으로 향하는 속도 벡터 $v^*_t = z_1 - (1 - \sigma_{min})z_0$ 를 예측하도록 학습된다. 입력값인 현재 상태 $z_t$ 와 시간 $t$ 를 받아 연산을 수행하여 다음 상태로 이동하기 위한 속도를 출력하며, 이는 모델이 시각적 지시를 타겟 이미지로 변환하는 최적의 경로를 찾게 함을 의미한다.

구조적으로는 Dual-Path Spatially-Adaptive Modulation을 도입한다. Transformer 블록 내에서 Self-Attention을 통해 전역 문맥을 파악한 후, 편집 작업 시에는 Cross-Attention과 적응형 게이팅 네트워크를 활성화하여 원본 이미지의 구조적 특징을 보존한다. 게이팅 계수 $\Lambda = \sigma(MLP([\tilde{H}^{(l)} \parallel \Delta H_{struct}]))$ 를 계산하여 픽셀 단위의 공간적 이질성을 식별하고, 보존해야 할 배경과 재구성해야 할 편집 영역을 정밀하게 구분한다.

관련 Figure

#2Diagram
입력 이미지와 시각적 지시문이 Janus 인코더와 VAE를 거쳐 잠재 공간 $z_{TI}$로 통합되는 과정을 보여준다. Transformer 블록 내의 적응형 게이팅 네트워크가 생성과 편집 경로를 어떻게 분리하여 처리하는지 시각화하고 있다.
FlowInOne의 전체 아키텍처와 플로우 매칭 과정을 설명하는 다이어그램이다.

주요 결과

VP-Bench 평가 결과, FlowInOne은 GPT-5.2(39.2%), Qwen3.5(50.3%), 인간 평가(44.9%)에서 모두 오픈소스 모델 중 가장 높은 통과율(Pass Rate)을 기록했다. 특히 상용 모델인 Nano Banana와 비교했을 때, Gemini-3 평가에서는 소폭 낮았으나 중립적인 평가자(GPT, Qwen, 인간) 그룹에서는 일관되게 우위를 점하며 시각 중심 패러다임의 우수성을 입칭했다.

정밀 제어 성능을 측정하는 DINOv3 Sim 점수에서 평균 48.7%를 기록하여 Nano Banana(47.3%)를 능가했다. 특히 물리적 이해가 필요한 힘(Force) 이해와 궤적(Trajectory) 이해 작업에서 각각 53.6%와 57.0%의 높은 점수를 기록하며, 단순한 픽셀 조작을 넘어 시각적 공간 내에서의 물리적 추론 능력을 증명했다.

Ablation Study를 통해 Joint Training의 중요성을 확인했다. 500만 개의 데이터를 한꺼번에 학습하는 Joint Training 방식이 2단계 학습(29.1%)보다 월등히 높은 47.8%의 통과율을 보였다. 이는 모델이 의미론적 생성, 기하학적 변환, 물리 법칙을 공유된 시각적 플로우 공간 내에서 동시에 학습할 때 가장 강력한 일반화 성능을 얻음을 시사한다.

관련 Figure

#3Screenshot
다른 모델들이 시각적 마커(화살표, 박스)를 이미지의 일부로 오인하거나 무시하는 반면, FlowInOne은 지시 사항을 정확히 해석하여 객체의 색상을 바꾸거나 물리적 움직임을 구현함을 보여준다. 특히 바운딩 박스 크기 준수와 물리적 궤적 생성에서 압도적인 성능 차이를 확인할 수 있다.
FlowInOne과 다른 모델들(Kontext, OmniGen2 등)의 시각적 지시 편집 결과를 비교한 이미지이다.

기술 상세

FlowInOne은 1.2B 파라미터 규모의 모델로, CrossFlow 아키텍처를 기반으로 설계되었다. 입력 인코딩을 위해 Janus-pro-1B의 시각 인코더와 LDM의 VAE를 결합하여 사용하며, 이를 통해 텍스트의 의미론적 정보와 이미지의 기하학적 정보를 단일 잠재 공간으로 통합한다. 텍스트 지시문은 별도의 토큰화 과정 없이 픽셀 공간에 렌더링되어 시각적 특징으로 추출되므로 모달리티 간의 구조적 불일치(Structural Mismatch) 문제를 근본적으로 해결한다.

핵심 기술인 Dual-Path Spatially-Adaptive Modulation은 Transformer 레이어 내에서 작업 지시자 $I_{edit} \in \{0, 1\}$ 에 의해 제어된다. 순수 생성 작업( $I_{edit}=0$ ) 시에는 구조적 보존 경로를 차단하여 시각적 프롬프트의 의미를 충실히 따르며, 편집 작업( $I_{edit}=1$ ) 시에는 소스 이미지의 잠재 변수 $z_{src}$ 를 Cross-Attention의 Key-Value 쌍으로 사용하여 원본의 구조를 참조한다. 이때 학습 가능한 게이팅 네트워크가 토큰별 가중치 벡터 $\Lambda$ 를 생성하여 편집이 필요한 영역과 보존할 영역을 픽셀 수준에서 정밀하게 조정한다.

학습 과정에서는 Flow Matching Loss( $L_{fm}$ ) 외에도 KL-Divergence Loss( $L_{kld}$ )와 CLIP Contrastive Loss( $L_{clip}$ )를 결합한 종합 손실 함수를 최적화한다. $L_{kld}$ 는 시각적 프롬프트 토큰을 표준 정규 분포로 정규화하여 잠재 공간의 붕괴를 방지하며, $L_{clip}$ 은 시각적 지시 임베딩과 생성된 이미지 표현 간의 의미론적 정렬을 강화한다. 이러한 다중 손실 함수 설계는 모델이 시각적 가이드를 정확히 이해하면서도 높은 화질의 이미지를 생성할 수 있게 뒷받침한다.

관련 Figure

#5Photo
256x256 이상의 해상도에서는 안정적인 품질을 유지하지만, 128x128 이하의 저해상도에서는 시각적 마커와 텍스트가 뭉개져 지시 이행 능력이 급격히 저하됨을 보여준다. 이는 모델의 성능이 입력 시각 정보의 가독성에 의존함을 입증한다.
입력 이미지 해상도 변화(128x128 ~ 512x512)에 따른 생성 결과의 품질 변화를 보여준다.

한계점

현재 모델은 1.2B 파라미터와 500만 개의 데이터셋 규모로 인해 매우 복잡하고 제약이 없는 시나리오에서의 일반화 능력은 다소 제한적이다. 또한 학습 시 계산 자원 한계로 인해 256x256 해상도로 고정되어 있어 고해상도 워크플로우에는 직접 적용하기 어렵다. 마지막으로 단일 턴 지시 실행에 최적화되어 있어 연속적인 멀티 턴 대화형 편집 기능은 아직 충분히 탐색되지 않았다.

관련 Figure

#4Chart
대부분의 작업에서 지시 충실도(Fidelity)가 가장 큰 병목 구간임을 보여주며, 특히 낙서(Doodles)나 물리 법칙 작업에서는 공간적 정밀도(Spatial) 오류 비중이 높아짐을 나타낸다. 이는 향후 연구가 집중되어야 할 정밀 제어의 난이도를 시사한다.
VP-Bench의 각 서브셋별 주요 오류 유형(지시 충실도, 공간 정밀도 등)을 분석한 도넛 차트이다.

실무 활용

FlowInOne은 단일 모델로 다양한 이미지 생성 및 편집 작업을 수행할 수 있어, 복잡한 파이프라인 없이도 정밀한 시각적 콘텐츠 제작 도구로 활용 가능하다. 특히 물리적 가이드라인을 따르는 생성 능력이 탁월하여 시뮬레이션이나 교육용 콘텐츠 제작에 유리하다.

텍스트 및 바운딩 박스를 활용한 정밀 객체 삽입 및 이미지 편집
화살표와 선을 이용한 물리적 궤적 및 힘의 작용 결과 시각화
낙서(Doodle)를 실사 이미지로 변환하는 스케치 기반 디자인
이미지 복원 및 인페인팅을 포함한 통합 이미지 프로세싱

코드 공개 여부: 공개

코드 저장소 보기

키워드

Multimodal Generation(멀티모달 생성)Flow Matching(플로우 매칭)Visual Prompt(시각적 프롬프트)Image-to-Image(이미지 투 이미지)Physics-aware AI(물리 인지 AI)

FlowInOne: 멀티모달 생성을 이미지 입력-이미지 출력 플로우 매칭으로 통합

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

시각 중심의 Image-in, Image-out 패러다임

FlowInOne 프레임워크 및 이중 경로 공간 적응형 변조

대규모 시각 프롬프트 데이터셋 VisPrompt-5M 구축

물리 법칙 이해, 궤적 예측, 정밀 편집 등 다양한 작업을 포함하는 500만 개의 시각적 프롬프트 쌍을 구축하여 모델의 강력한 일반화 성능을 확보한다.

통합 평가 벤치마크 VP-Bench 제안

관련 Figure

핵심 아이디어 이해하기

방법론

관련 Figure

주요 결과

관련 Figure

기술 상세

관련 Figure

한계점

관련 Figure

실무 활용

텍스트 및 바운딩 박스를 활용한 정밀 객체 삽입 및 이미지 편집
화살표와 선을 이용한 물리적 궤적 및 힘의 작용 결과 시각화
낙서(Doodle)를 실사 이미지로 변환하는 스케치 기반 디자인
이미지 복원 및 인페인팅을 포함한 통합 이미지 프로세싱

코드 공개 여부: 공개

코드 저장소 보기

키워드

Multimodal Generation(멀티모달 생성)Flow Matching(플로우 매칭)Visual Prompt(시각적 프롬프트)Image-to-Image(이미지 투 이미지)Physics-aware AI(물리 인지 AI)

FlowInOne: 멀티모달 생성을 이미지 입력-이미지 출력 플로우 매칭으로 통합

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

FlowInOne: 멀티모달 생성을 이미지 입력-이미지 출력 플로우 매칭으로 통합

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드