OneHOI: 인간-객체 상호작용 생성 및 편집의 통합

이미지 생성 AI가 단순히 물체를 배치하는 수준을 넘어, 인간과 사물 사이의 복잡한 물리적 상호작용(HOI)을 정확하게 이해하고 수정할 수 있게 한다. 기존 모델들이 해결하지 못한 다중 상호작용 편집과 정교한 자세 제어를 하나의 통합된 프레임워크로 구현하여 AR/VR 및 콘텐츠 제작의 수준을 높인다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

관련 Figure

#1Photo
텍스트 가이드 편집부터 레이아웃 기반 제어, 다중 상호작용 편집까지 OneHOI가 수행할 수 있는 광범위한 작업 범위를 시각화한다. 특히 복잡한 자세 변화와 물리적 접점 유지를 성공적으로 수행함을 보여준다.
OneHOI의 다양한 생성 및 편집 기능을 보여주는 예시 이미지.

핵심 기여

OneHOI 통합 프레임워크 구축

인간-객체 상호작용(HOI)의 생성과 편집을 단일 조건부 디노이징 프로세스로 통합한 최초의 Diffusion Transformer 기반 프레임워크이다.

Relational Diffusion Transformer (R-DiT) 설계

상호작용의 구조를 명시적으로 모델링하기 위해 HOI Encoder, Structured HOI Attention, HOI RoPE 모듈을 도입하여 관계적 이해도를 높였다.

Action Grounding 기법 도입

동사(Action)에 특화된 시맨틱 및 공간적 단서를 제공하여, 객체 중심 모델이 놓치기 쉬운 상호작용의 물리적 맥락을 보강했다.

HOI-Edit-44K 데이터셋 공개

정교한 HOI 편집 학습을 위해 44,000개의 고품질 쌍 데이터(Source-Edited Image Pair)를 구축하여 데이터 부족 문제를 해결했다.

핵심 아이디어 이해하기

기존의 Diffusion Transformer(DiT)는 이미지를 독립적인 객체들의 집합으로 처리하는 경향이 있어, '사람이 컵을 들고 마시는' 것과 같은 밀접한 상호작용의 물리적 접점이나 자세를 정확히 표현하지 못한다. 이는 Self-Attention 메커니즘이 모든 픽셀 간의 관계를 계산하지만, 정작 '누가 무엇을 어떻게' 하는지에 대한 구조적 문법을 강제하지 않기 때문이다.

OneHOI는 이를 해결하기 위해 '관계적 문법'을 Transformer 아키텍처에 직접 주입한다. 먼저 HOI Encoder가 각 상호작용 인스턴스에 고유한 ID와 역할(주체/객체/동사) 정보를 임베딩으로 할당한다. 이후 Structured HOI Attention이 동사를 중심으로 주체와 객체 사이의 정보 흐름만 허용하고 나머지 불필요한 연결을 마스킹함으로써, 물리적으로 타당한 상호작용 구조를 학습하도록 유도한다.

마지막으로 HOI RoPE(Rotary Position Embedding) 기술을 통해 여러 명의 사람이 각기 다른 행동을 하는 복잡한 장면에서도 정보가 서로 섞이지 않도록 공간적 정체성을 분리한다. 결과적으로 모델은 단순한 픽셀 배치가 아니라, 상호작용의 논리적 구조를 바탕으로 이미지를 생성하고 편집하게 된다.

방법론

OneHOI는 Flux.1 Kontext를 기반으로 한 Relational DiT(R-DiT) 아키텍처를 채택했다. 전체 프로세스는 텍스트 프롬프트와 레이아웃 정보를 입력받아 공유된 구조적 상호작용 표현을 통해 이미지를 생성하거나 편집하는 단일 파이프라인으로 구성된다.

Action Grounding(AG)은 주체(Subject)와 객체(Object)의 영역을 합친 Union 영역을 상호작용의 공간적 타겟으로 설정한다. [주체 영역 $R^s_n$ 과 객체 영역 $R^o_n$ 의 합집합 $R^a_n = R^s_n \cup R^o_n$ 을 계산] → [해당 영역에 동사 토큰 $A_n$ 을 할당] → [모델이 상호작용이 일어나는 구체적인 위치를 인지하게 함]의 과정을 거친다.

Structured HOI Attention은 상호작용의 위상(Topology)을 강제한다. [주체 $S_n$ 과 객체 $O_n$ 사이의 직접적인 어텐션을 차단] → [대신 동사 $A_n$ 을 통해서만 정보가 교환되도록 마스킹] → [동사가 주체와 객체의 관계를 매개하는 구조를 형성]하여 물리적 접점이 어색해지는 현상을 방지한다.

HOI RoPE는 다중 상호작용 장면에서 인스턴스를 구분한다. [각 상호작용 $n$ 에 대해 고유한 오프셋 $T+n$ 을 생성] → [이를 회전 위치 임베딩 연산에 적용] → [서로 다른 상호작용 토큰들이 공간적으로 겹치더라도 고유한 식별자를 유지]하게 하여 속성이 뒤섞이는 'Cross-talk' 문제를 해결한다.

관련 Figure

#2Diagram
혼합 조건 생성에서 시작하여 레이아웃 없는 편집, 레이아웃 가이드 편집, 속성 편집으로 이어지는 단일 모델 기반의 다단계 작업 흐름을 설명한다. 이는 모델의 범용성과 유연성을 강조한다.
OneHOI의 통합 워크플로우를 보여주는 다이어그램.

주요 결과

레이아웃 없는 HOI 편집(Layout-free editing) 실험에서 OneHOI는 IEBench 벤치마크 기준 Editability-Identity 점수 0.638을 기록하여, 기존 SOTA 모델인 InteractEdit(0.573) 대비 약 10%의 성능 향상을 보였다. 특히 이미지 품질 지표인 ImageReward에서 0.4713을 기록하며 대조군들(-1.0289 ~ 0.1630)을 압도하는 시각적 충실도를 증명했다.

HOI 생성 작업에서도 OneHOI는 Spatial Score 0.6104, HOI Accuracy 0.4528을 달성하여 Eligen 및 InteractDiffusion과 같은 기존 모델들을 능가했다. Ablation Study 결과, 제안된 네 가지 핵심 컴포넌트(AG, Enc, Attn, HRoPE)를 모두 사용했을 때 상호작용의 타당성(Plausibility)과 정확도가 가장 높게 나타났다.

관련 Figure

#6Photo
Action Grounding부터 HOI RoPE까지 각 모듈이 추가됨에 따라 '새를 잡고 쓰다듬는' 복잡한 동작의 물리적 타당성이 어떻게 개선되는지 단계별로 보여준다. 모든 모듈이 결합되었을 때만 두 손을 모두 사용하는 복합 동작이 정확히 렌더링된다.
컴포넌트별 성능 향상을 보여주는 Ablation Study 시각화.

기술 상세

OneHOI의 핵심은 DiT의 범용적인 추론 능력에 HOI의 구조적 제약 조건을 결합한 것이다. R-DiT는 T5 인코더에서 추출된 텍스트 임베딩과 VAE를 통해 인코딩된 이미지 잠재 변수를 입력으로 받는다. 편집 모드에서는 소스 이미지의 잠재 변수와 노이즈를 결합하여 입력하며, 생성 모드에서는 순수 노이즈에서 시작한다.

학습 전략으로는 Modality Dropout을 활용한 공동 학습(Joint Training)을 사용했다. 레이아웃, HOI 라벨, 텍스트 프롬프트를 일정 확률로 누락시키며 학습함으로써 모델이 불완전한 입력 조건에서도 강건하게 작동하도록 설계했다. 특히 HOI-Edit-44K 데이터셋은 PViC 탐지기와 DINOv2 특징 기반의 정밀한 필터링을 거쳐 구축되어, 편집 전후의 정체성 유지 성능을 극대화했다.

관련 Figure

#3Diagram
R-DiT의 내부 구조와 HOI Encoder, Structured HOI Attention의 배치를 보여준다. 특히 (b)와 (c)의 비교를 통해 HOI RoPE가 어떻게 다중 인스턴스를 공간적으로 분리하는지 수학적 인덱싱 원리를 시각화한다.
OneHOI의 전체 아키텍처 및 HOI RoPE의 개념도.

한계점

OneHOI는 고품질의 결과를 보여주지만, 학습 데이터셋인 HOI-Edit-44K의 분포에 의존적일 수 있다. 또한 매우 복잡하거나 이례적인 상호작용의 경우 여전히 물리적 왜곡이 발생할 가능성이 있으며, 실시간 추론 속도에 대한 최적화는 향후 과제로 남아있다.

실무 활용

OneHOI는 고도의 정밀함이 요구되는 이미지 편집 및 생성 도구에 즉시 적용 가능하다. 특히 복잡한 인간-사물 상호작용을 유지하면서 특정 행동만 바꾸거나 새로운 인물을 추가하는 작업에 탁월하다.

전자상거래: 모델이 특정 제품을 사용하는 자세나 방식을 자연스럽게 변경하여 광고 이미지 제작
콘텐츠 제작: 영화나 게임의 컨셉 아트에서 인물의 포즈와 사물 간의 물리적 접점을 정교하게 수정
데이터 증강: 로봇 학습이나 행동 인식 모델 학습을 위한 고품질의 상호작용 이미지 합성

코드 공개 여부: 공개

코드 저장소 보기

키워드

HOI(인간-객체 상호작용)Diffusion Transformer(확산 트랜스포머)R-DiT(관계적 확산 트랜스포머)Image Editing(이미지 편집)Action Grounding(액션 그라운딩)

OneHOI: 인간-객체 상호작용 생성 및 편집의 통합

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

관련 Figure

핵심 기여

OneHOI 통합 프레임워크 구축

인간-객체 상호작용(HOI)의 생성과 편집을 단일 조건부 디노이징 프로세스로 통합한 최초의 Diffusion Transformer 기반 프레임워크이다.

Relational Diffusion Transformer (R-DiT) 설계

상호작용의 구조를 명시적으로 모델링하기 위해 HOI Encoder, Structured HOI Attention, HOI RoPE 모듈을 도입하여 관계적 이해도를 높였다.

Action Grounding 기법 도입

동사(Action)에 특화된 시맨틱 및 공간적 단서를 제공하여, 객체 중심 모델이 놓치기 쉬운 상호작용의 물리적 맥락을 보강했다.

HOI-Edit-44K 데이터셋 공개

정교한 HOI 편집 학습을 위해 44,000개의 고품질 쌍 데이터(Source-Edited Image Pair)를 구축하여 데이터 부족 문제를 해결했다.

핵심 아이디어 이해하기

방법론

관련 Figure

주요 결과

관련 Figure

기술 상세

관련 Figure

한계점

실무 활용

전자상거래: 모델이 특정 제품을 사용하는 자세나 방식을 자연스럽게 변경하여 광고 이미지 제작
콘텐츠 제작: 영화나 게임의 컨셉 아트에서 인물의 포즈와 사물 간의 물리적 접점을 정교하게 수정
데이터 증강: 로봇 학습이나 행동 인식 모델 학습을 위한 고품질의 상호작용 이미지 합성

코드 공개 여부: 공개

코드 저장소 보기

키워드

HOI(인간-객체 상호작용)Diffusion Transformer(확산 트랜스포머)R-DiT(관계적 확산 트랜스포머)Image Editing(이미지 편집)Action Grounding(액션 그라운딩)

OneHOI: 인간-객체 상호작용 생성 및 편집의 통합

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

OneHOI: 인간-객체 상호작용 생성 및 편집의 통합

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드