OcclusionFormer: 레이아웃 기반 이미지 생성을 위한 Z-order 배열

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

레이아웃-투-이미지 모델은 객체 위치와 크기를 정밀하게 제어할 수 있지만, 객체 간의 occlusion(가림)으로 인한 중첩 영역의 불확실성이 여전히 남아 있다. 기존 방법은 중첩 영역을 명시적 Z-order 없이 처리해 텍스처가 얽히거나 깊이 관계가 잘못 반영될 수 있다. SA-Z 데이터셋과 OcclusionFormer는 Z-order 우선순위를 명시적으로 학습하고 볼륨 렌더링으로 occlusion 의존성을 해소함으로써 복잡한 다중 객체 장면에서 구조적 일관성과 시각적 현실감을 크게 향상시킨다.

왜 중요한가

핵심 기여

SA-Z 데이터셋 및 amodal/3D 어노테이션

SA-Z는 1M 고해상도 이미지와 5.7M 인스턴스를 포함하고, Open vocabulary 캡션과 함께 Z-order를 포함한 amodal 바운딩 박스를 제공한다. DescribeAnything로 픽셀 단위 캡션을 생성하고 InstaOrderNet으로 인스턴스 간 Z-order를 예측하며 SAM-3D로 amodal 바운딩 박스와 마스크를 추정한다.

OcclusionFormer: Z-order 우선순위 학습

DiT 기반의 occlusion-aware 프레임워크로, 인스턴스를 decouple(분리)한 뒤 볼륨 렌더링으로 Z-order 의존성을 해소한다. 각 인스턴스의 density σi를 예측하고, 트랜스미턴스 Ti와 렌더링 가중치 wi를 통해 Zout을 구성한다. 이로써 중첩 영역에서의 정합성을 확보한다.

Queried Alignment Loss 도입

각 인스턴스에 대해 학습 가능한 질의 벡터 qi를 도입하고, 로컬 시각 특징 Ẑi와의 관계를 Si로 매핑한 후, CNN 기반 마스크 예측기를 통해 Mi를 얻는다. Cross-Entropy 손실 Lalign으로 공간적 배치를 정렬하고 amodal 신호를 활용해 기하적 신호를 강화한다.

OcclusionFormer의 성능 및 평가

OverLayBench 및 SA-Z Eval에서 occlusion-aware 지표(Occlusion Order, O-mIoU, Occ., Dep.)와 레이아웃 정확도(mIoU, CLIP-G/L)에서 최상위 성능을 달성한다. Complex 구간에서 Occ=0.7797, Dep=0.1602를 기록했고 SA-Z Eval에서 Occ=0.7568, Dep=0.1529를 달성한다.

Ablation 연구를 통한 구성 요소의 중요성

Inst. Decouple의 제거는 가장 큰 성능 저하를 야기하고, Occlusion Cond.의 제거는 복잡한 중첩에서 Occlusion 정확도를 낮춘다. Learned Sigma의 제거 역시 opa적( Opacity) 조절의 비효율을 초래한다. Amodal Data의 부재는 전체 구조 일관성에 악영향을 준다.

핵심 아이디어 이해하기

출발점: 레이아웃 기반 이미지 생성은 객체 간의 occlusion으로 인해 서로 다른 인스턴스 간의 경계와 깊이가 혼합될 수 있다. Self-attention 기반의 전통적 2D 컨트롤은 Z-order 정보를 명시적으로 다루지 못하므로 겹치는 영역에서 잘못된 합성이 발생한다. 해결 원리: 인스턴스를 서로 독립된 레이어로 디커플링하고, 볼륨 렌더링 개념을 차용해 Z-axis 우선순위를 학습한다. 각 인스턴스의 밀도 σi를 예측하고, 트랜스미턴스 Ti 및 렌더링 가중치 wi를 통해 Zout을 구성해 중첩 영역의 occlusion 순서를 동적으로 제어한다. 추가로 Queried Alignment Loss를 도입해 로컬 영역의 형태를 정밀하게 재구성하고 기하적 정합성을 강화한다. 결과적으로 단순/복잡한 중첩에서 보다 명확한 Z-order를 유지하며, 인스턴스 경계의 해상도와 의미 일치를 모두 향상시킨다.

시작점과 한계: 2D 레이아웃 조건으로는 깊이 정보가 부족해 중첩 시 텍스처 혼합이 발생한다. 2) 해결 원리: 인스턴스 디커플링 + 볼륨 렌더링으로 각 인스턴스의 영향력을 지역 구역에서만 적용하고, Z-order에 따라 합성한다. 3) 달라지는 점: 동적 sigma를 통한 투과도 조절, 질의 기반 마스크로 경계 정합성 확보, Lflow와 Lalign의 결합으로 기하적 구조와 스타일 품질을 함께 최적화한다.

방법론

개요: OcclusionFormer는 MM-Attention을 각 인스턴스의 바운딩 박스 내부의 로컬 영역에만 적용하여 인스턴스별 특성으로 얻은 정보를 독립적으로 반영한다. 각 인스턴스 i에 대해 Bi로 정의된 바운딩 박스 내부의 토큰 집합 Ωi를 구하고, ZΩi와 C′i 간의 MM-Attention을 수행해 Ẑi, Ci를 얻는다. 이전 파라미터를 고정하고 LoRA를 통해 주의 투사에만 학습을 수행한다. Z-order 구성은 볼륨 렌더링에서 영감을 받아, 각 인스턴스의 density σi를 etemb에서 변환해 도출하고, αi(p)= (1−exp(−σi)) I(p∈Bi), Ti(p)=exp(−∑j∈Oi σj I(p∈Bj))를 정의한다. 최종 렌더링은 wi(p)=Ti(p)·αi(p)로 가중치를 부여한 합성으로 Zout(p) = (∑i wi(p) Ẑi(p)) / (∑i wi(p)+ε) 이고, Sp에서 p를 덮는 인스턴스의 집합에 대해 평균화한다. 입력 피처는 Zout에 잔차로 더해진다. 학습 손실은 Lflow(Rectified Flow)와 Lalign의 가중합으로 정의되며, λ은 0.5로 설정된다. 학습 세부: 28-step denoising schedule, layout guidance는 초기 30% 동안 활성화된다. 구현은 LoRA(rank=4)로 pre-trained Diffusion Backbone을 부분적으로 학습시키며, 학습은 200K 스텝, 배치 크기 16, 학습률 1e−4에서 수행된다.

주요 결과

주요 벤치마크에서 OcclusionFormer가 Occlusion Order, O-mIoU, Occ., Dep 등 occlusion 관련 지표에서 최상위를 기록한다. OverLayBench의 Simple/Regular/Complex에서 각각 mIoU, O-mIoU가 향상되며, Complex에서 Occ=0.7797, Dep=0.1602를 달성했다. SA-Z Eval에서도 Occ=0.7568, Dep=0.1529를 기록한다. Ablation 연구에서 Inst. Decouple 제거 시 다수 지표가 크게 하락했고, Occlusion Cond. 미적용 시 Complex 구간의 Occlusion 정확도가 감소했다. Learned Sigma 제거 시 O-mIoU 하락이 관측되며, Queried Loss 제거 시 SRE가 하락한다. 효율성 측면에서 객체 수 증가에 따라 추론 속도가 선형적으로 증가하는 경향이 확인된다.

기술 상세

아키텍처: DiT 기반의 Diffusion Transformer로 인스턴스 디커플링을 도입하고, 로컬 영역(ZΩi)에서 Instance Captions(C′i)와 MM-Attention으로 Ẑi를 업데이트한다. 인스턴스 i에 대해 σi를 예측하는 적응형 프로젝션 모듈과 Softplus 활성화를 통해 density를 양수로 만든다. 마스크 예측기는 3x3 컨볼루션 2층 구조로 M̂i를 예측하고, Lalign 손실은 Ground-truth Mi와 예측 맵의 Cross-Entropy를 적용한다. Occlusion Cond.를 통해 Z-축 순서를 명시적으로 모델링하고, Ti(p)와 αi(p)를 이용해 Zout를 구성한다. Loss 구성: Ltotal = Lflow + λ Lalign (λ=0.5). 학습 데이터는 SA-Z 및 OverLayBench를 사용하고, 28-step denoising Schedule 및 Layout Guidance의 초기 활성화를 채택한다. LoRA 랭크는 4로 설정하고, 200K 스텝 학습, 배치 16, lr=1e−4로 학습한다. 구현은 Nvidia A800에서 수행된다.

한계점

Figure 8에 제시된 바와 같이 occlusion order를 고정된 seed로 배치하는 경우 텍스처의 질감에 차이가 발생하여 개체 정체성의 일관성이 떨어질 수 있다. 레이아웃과 occlusion 순서의 분리로 인한 표현이 아직 완전한 해리(decoupling) 수준에 도달하지 못하는 한계가 있으며, 향후 강화학습 기반의 후처리로 보완 가능성이 제시된다.

실무 활용

레이아웃 조건에서 복수 객체 간의 가림을 정확히 반영하는 합성 이미지를 생성하는 실용적 도구이다. SA-Z 데이터와 OcclusionFormer의 조합은 복잡한 Occlusion 환경에서 학습-생성 파이프라인에 구조적 신뢰성과 품질 향상을 제공한다.

레이아웃 기반 데이터 증강 및 합성 데이터 생성
복합 장면의 구조적 일관성 연구를 위한 테스트베드 제공
실무 프롬프트 엔지니어링에서 레이아웃-주도 이미지 생성
증강현실/가상환경의 동적 레이아웃 시나리오 시뮬레이션
Occlusion-aware 데이터셋 구축 및 주석 자동화

코드 공개 여부: 공개

코드 저장소 보기

키워드

layout-to-image(레이아웃-투-이미지)occlusion(가림)Z-order(지-오더)volume rendering(볼륨 렌더링)diffusion transformer(확산 트랜스포머)amodal(암오달)instance decoupling(인스턴스 디커플링)