From Plans to Pixels: Learning to Plan and Orchestrate for Open-Ended Image Editing

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

추상적이고 장기적인 이미지 편집 요청은 단일 단계의 수정으로 충족되기 어렵다. 본 연구는 planning과 execution을 결합한 경험적 학습 프레임워크를 제시하여 다단계 편집에서의 일관성, 목표 충족성, 시각적 품질을 동시에 개선한다. 체크리스트 기반의 계획과 보상 기반의 실행을 통해 수동 규칙이나 지도 교사 의존성을 줄이고, 여러 도구를 조합하는 오케스트레이션의 일반화 가능성과 안정성을 높인다.

왜 중요한가

추상적이고 장기적인 이미지 편집 요청은 단일 단계의 수정으로 충족되기 어렵다. 본 연구는 planning과 execution을 결합한 경험적 학습 프레임워크를 제시하여 다단계 편집에서의 일관성, 목표 충족성, 시각적 품질을 동시에 개선한다. 체크리스트 기반의 계획과 보상 기반의 실행을 통해 수동 규칙이나 지도 교사 의존성을 줄이고, 여러 도구를 조합하는 오케스트레이션의 일반화 가능성과 안정성을 높인다.

핵심 기여

Long-horizon open-ended editing framework

추상적 목표를 다단계로 분해하고 도구-영역 조합의 순차적 실행으로 복합 편집을 수행한다.

Checklist-guided planner with self-supervision

체크리스트를 활용해 플래너를 자기지도 미세조정하여 분포 이동(distribution shift)을 줄이고 전반적 커버리지를 확보한다.

Reward-driven orchestrator grounded in judged outcomes

오케스트레이터가 도구-영역 쌍을 선택할 때 VLM judge의 결과를 보상으로 삼아 학습한다.

Closed-loop plan refinement

실행 가능하지 않은 서브태스크를 제거해 계획-실행 간의 일관성을 확보하고 안정성을 높인다.

핵심 아이디어 이해하기

출발점: 추상적 고수준 지시가 다단계 및 이종 도구 조합을 필요로 하므로 end-to-end 학습으로 해결하기 어렵다. 본 논문은 (1) Checklist-guided planner로 계획을 먼저 만들고 (2) Reward-driven Orchestrator로 도구-영역 선택을 최적화하며, (3) Judge의 결과로 두 모듈 간 피드백 루프를 형성한다는 점에서 차이가 있다. 단계 간 의존성을 포착하기 위해 계획은 서브태스크의 순서로 구성되고, 각 서브태스크의 성공 여부에 따라 전체 보상을 구성한다. (1) 어떤 값을 입력으로 → (2) 어떤 연산을 수행해 → (3) 어떤 결과를 얻고 → (4) 그 값의 의미를 도출한다. 예를 들어 L_planner는 (x,I)의 분포로부터 기대를 구하고, L_orch는 (x,I,P,a_{1:T}^,r_{1:T}^) 분포에서 기대 로그 가능도(log π_φ)로 최적화된다. 한계와 개선점은 실험에서 보이며, k(탐색 분기 수) 증가에 따라 의도된 제약을 더 잘 만족하는 편집이 나타난다.

방법론

단계 1. Planner via Checklist-Guided Self-Training: 입력 이미지 x와 지시 I에서 planner는 s1,...,sT의 순차적 서브태스크로 구성된 계획 P를 생성한다. Checklist C = {c1,...,cK}를 통해 계획의 커버리지를 강제하고, 자가지도 샘플에서 L_planner을 최소화하며 훈련한다. L_planner = E_{(x,I)~D}[ - Σ_t Σ_j log p_θ(s_{t,j}^* | x,I, s_{<t}^, s_{t,<j}^) ]. 단서: 체크리스트를 이용한 스마트 프롬프트로 상태를 제시하되,외부 교사 데모 없이 자가지도 학습으로 일반화한다. (추가 학습 없이 추론 시 체크리스트는 제거된다) 단계 2. Orchestrator via Reward-Driven Tool Selection: (x,I,P)에서 orchestrator는 각 sub-task st에 대해 도구 a_t와 영역 r_t를 선택한다. 도구-영역 조합 후보 집합 C를 미리 평가하고, 후보 중 높은 보상을 주는 상위 후보를 샘플링한 뒤, 각 후보를 적용하고 보상 R( x̂, x, I )을 계산한다. 최적의 (a_t^, r_t^)를 선택하고 누적 편집을 수행한다. L_orch = - E_{(x,I,P, a^,r^)}[ Σ_t log π_φ(a_t^, r_t^ | x,I,P,a_{<t}^, r_{<t}^) ]. 단계 3. Plan Refinement: max_a,r R_{a,r}(s_t) < τ인 서브태스크는 제거하고 planner를 재훈련한다. 단계 4. Verifier-Guided Inference: 중간 편집에 대해 verifier를 통해 상위 후보를 재랭크하고 top-1을 선택한다. 이는 누적 오차를 줄이고 실행 안정성을 높인다. 3. Tools: 분석 도구(SAM-2+Qwen3-VL, DeepSeek-OCR, Qwen-Layered, Qwen-BBox), 전체 이미지 도구(Flux-Context, Qwen-Image-Edit) 및 영역 수준 도구(Flux-Inpaint)를 조합해 지역 선택 및 편집을 수행한다.

주요 결과

Main Results: 제안된 방법은 Open-ended 다단 편집에서 state-of-the-art 성능을 달성한다. Instruction Following, Identity Preservation, Visual Quality의 Gemini-3-Pro 평가에서 Ours가 상위 성과를 보인다(Table 1). Ablation: (i) 1/3/5 브랜치 탐색 시 제안된 다-branched orchestrator가 모든 baselines보다 높은 제약 충족도(Instr)와 시각 품질(VQ)을 기록한다(Table 2). (ii) Plan 데이터세트의 self-distillation이 teacher-forcing 대비 perplexity를 감소시키고, checklist-conditioned plans가 더 높은 평균 보상을 가지며 분포 일치를 개선한다(Table 3). Plan Refinement 도입으로 infeasible 서브태스크 제거가 평균 보상을 증가시키고 실행 가능성을 높인다(Table 3, 오른쪽). MagicBrush 벤치마크에서 CLIP-T 기준으로 semantic alignment가 상위이며(GEdit 벤치에서도 전체 점수 상위), GEdit-v1/v2에서도 Ours가 최상위를 차지한다(Table 7, Table 8). Qualitative Result: Figures 5-7는 다단계 광고 편집에서 visual unity와 instruction-faithfulness를 향상시킴을 보여준다. MadVerse 데이터로 약 7,598개 인스턴스를 학습하고 200개의 테스트 인스턴스로 평가한다. 사용 도구는 SAM-2, DeepSeek-OCR, Qwen-Layered, Qwen-BBox, Flux-Kontext-Inpaint, Qwen-Image-Edit, Flux-Kontext-Edit 등이다.

기술 상세

전체 아키텍처: Planner(체크리스트 기반 self-training) + Orchestrator(보상 기반 도구-영역 선택) + JUDGE(GVLM 기반 평가) + Plan Refinement + Verifier-inference. 알고리즘은 비선형적 의존성을 갖는 다단계 계획과 도구 호출의 최적화를 결합한다. 수학적 구조: L_planner, L_orch, R(ˆx, x, I)에 기반한 학습 목표를 채택하며, Additive/Original-Image Independence 보상 근사화를 이용해 사전계산 가능한 tool–region 후보를 구성하고 탐색한다. 구성 도구는 SAM-2, Qwen-3VL-8B, DeepSeek-OCR, Qwen-Layered, Qwen-BBox, Flux-Inpaint, Flux-Kontext-Edit 등으로 분류된다. Plan-Refinement는 sub-task별 최대 보상 max_{a,r} R_{a,r}(s_t) < τ를 이용해 실행 불가능한 서브태스크를 제거한다.

실무 활용

실무적으로 abstract한 다단계 편집을planner+orchestrator 파이프라인으로 구현해, 특정 산업 광고의 도메인별 맞춤 편집을 효과적으로 수행할 수 있다.

광고 캠페인 리브랜딩의 다국어 버전 생성
브랜드 아이덴티티 유지하며 텍스트 및 배경 교체
다양한 대상 소비층에 맞춘 메시지 조정
대규모 광고 자산의 자동화된 지역 편집

코드 공개 여부: 비공개

키워드

plannerorchestratorvision-language-judgereward-driven-executionatomic-decompositionstool-selectionregion-selectioninstruction-adherence