에이전트에게 한 번에 한 부분씩 스케치하는 법 가르치기

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존 AI 스케치 모델은 전체 그림을 한 번에 그려내어 특정 부분만 수정하거나 생성 과정을 세밀하게 제어하기 어려웠다. 이 논문은 그림을 의미 있는 단위로 나누어 순차적으로 그리는 VLM 에이전트를 제안하여, 사용자가 생성 과정에 개입하고 국소적인 편집을 가능하게 하는 새로운 인터랙티브 드로잉 패러다임을 제시한다.

왜 중요한가

핵심 기여

ControlSketch-Part 데이터셋 구축

35,000개의 벡터 스케치에 대해 부분별 세부 텍스트 설명과 경로(Path) 할당 정보를 포함한 고품질 데이터셋을 구축하여 공개했다.

자동화된 부분 주석 파이프라인 개발

VLM을 활용하여 원본 SVG 데이터를 의미 있는 부분으로 분해하고, 비평(Critique) 및 수정 과정을 거쳐 정밀한 주석을 생성하는 확장 가능한 파이프라인을 제안했다.

다회차 프로세스 보상 GRPO 알고리즘

생성 과정의 각 중간 단계마다 시각적 유사도와 경로 수의 적절성을 평가하는 보상을 부여하여 전체 생성 품질을 최적화하는 강화학습 전략을 도입했다.

국소적 편집 및 인터랙티브 기능 구현

부분 단위 생성을 통해 특정 스트로크만 제거하거나 교체하는 등 기존 모델이 지원하지 못했던 정밀한 벡터 편집 기능을 실현했다.

핵심 아이디어 이해하기

기존의 벡터 스케치 생성은 전체 그림을 하나의 긴 시퀀스로 보고 밑그림 없이 한 번에 완성하려는 방식이었다. 이는 복잡한 구조에서 형태가 무너지거나 사용자가 중간에 개입할 여지가 없는 한계를 가졌다. 이 논문은 그림을 '의미 있는 부분(Semantic Parts)'의 집합으로 정의하고, 에이전트가 각 부분의 지시문에 따라 순차적으로 그리도록 설계했다.

동작 원리는 캔버스의 현재 상태를 시각적으로 확인하는 '비주얼 피드백'에 기반한다. 에이전트는 "안테나가 달린 머리"를 그린 후, 그 결과를 보고 다음 단계인 "몸통"을 어디에 배치할지 결정한다. 이는 딥러닝의 강화학습과 결합되어, 각 단계마다 정답 이미지와의 지각적 유사도를 계산하는 보상을 통해 최적화된다.

결과적으로 에이전트는 단순히 선을 나열하는 것이 아니라 구조적 맥락을 이해하며 그림을 완성한다. 이러한 방식은 생성된 결과물의 해석 가능성을 높일 뿐만 아니라, 특정 부분만 다시 그리거나 수정하는 등 실제 디자이너의 작업 방식과 유사한 워크플로우를 가능하게 한다.

방법론

데이터 주석 파이프라인은 VLM을 비평가로 활용하는 다단계 프로세스로 구성된다. 원본 스케치를 래스터 이미지로 변환하여 의미 있는 부분으로 분해(Decomposition)하고, 각 경로를 해당 부분에 할당한다. 이후 VLM이 할당 오류를 찾아내고 수정하는 비평 단계를 거쳐 최종적으로 부분별 텍스트 캡션과 경로 매핑 정보를 생성한다.

학습은 2단계로 진행된다. 1단계인 SFT(Supervised Fine-Tuning)에서는 에이전트가 SVG 출력 형식과 단일 회차의 스케치 정책을 학습한다. 데이터 증강을 위해 부분의 순서를 무작위로 섞어 다양한 생성 순서에 대응할 수 있도록 가중치를 갱신한다.

2단계는 다회차 프로세스 보상 GRPO를 적용한다. 각 단계 t에서 생성된 이미지와 정답 이미지 사이의 DreamSim 지각 유사도를 계산하여 보상을 부여한다. [생성 이미지와 정답 이미지의 임베딩 벡터를 입력으로] → [코사인 유사도 연산을 수행해] → [0에서 1 사이의 값을 얻고] → [이 값이 1에 가까울수록 시각적 완성도가 높음을 의미한다]. 또한 경로 수 보상을 추가하여 불필요하게 복잡한 선 생성을 억제한다.

주요 결과

Long-CLIP 코사인 유사도 측정 결과, 제안된 모델은 0.298점을 기록하여 SFT 전용 모델(0.281) 및 기존 SketchAgent(0.288)보다 높은 텍스트 충실도를 보였다. 특히 다회차 프로세스 보상을 적용한 방식이 최종 결과물만 평가하는 방식(0.286)보다 우수한 성능을 나타냈다.

사용자 선호도 조사에서 제안 모델은 시각적 품질 면에서 SketchAgent 대비 77.5%, Gemini 3.1 Pro 대비 66.1%의 선택을 받았다. 생성 과정과 텍스트 설명의 일치도를 묻는 질문에서도 SketchAgent 대비 70%의 선호도를 기록하며 부분별 생성의 정확성을 입증했다.

정성적 분석 결과, 제안 모델은 기하학적 기본 도형에 의존하는 기존 방식과 달리 더 자연스럽고 부드러운 경로를 생성하며, 말이나 로봇과 같은 복잡한 객체의 구조적 특징을 명확하게 표현함이 확인됐다.

기술 상세

아키텍처는 Qwen3-VL-30B-A3B를 백본으로 하며, 효율적인 학습을 위해 LoRA(rank=64)를 적용했다. 입력 컨텍스트에는 현재 캔버스의 래스터 렌더링, 전체 캡션, 이전 회차의 히스토리, 다음 그릴 부분의 설명, 남은 부분의 수가 포함된다.

출력 형식은 큐빅 베지에 곡선을 정의하는 8개의 좌표와 SVG 명령(M, C)으로 제한하여 모델이 복잡한 SVG 문법 대신 기하학적 구조 학습에 집중하도록 설계했다. 좌표 값은 SFT 단계에서 10 단위로 반올림하여 학습 안정성을 높였다.

강화학습 단계에서 사용된 GRPO는 별도의 비평가 모델 없이 그룹 내 상대적 보상을 사용하여 연산 효율성을 극대화했다. 각 토큰 수준의 Advantage를 계산할 때 현재 단계 이후의 모든 정규화된 보상의 합을 사용하여 다단계 의사결정의 장기적 영향을 반영했다.

DreamSim 보상은 CLIP이나 LPIPS보다 인간의 시각적 판단과 더 잘 일치하는 지각적 유사도 메트릭을 제공하여, 단순 픽셀 일치도가 아닌 형태적 완성도를 높이는 데 기여했다. 경로 수 보상은 정답 경로 수와의 차이를 정규화하여 보상에 반영함으로써 간결한 스케치를 유도했다.

한계점

데이터셋의 모든 스케치가 고정된 수의 경로를 가지고 있어, 에이전트가 경로 수 보상에 맞추기 위해 그림이 미완성 상태임에도 생성을 조기에 중단하는 경우가 발생한다. 또한 데이터셋에 포함되지 않은 생소한 구조나 복잡한 위상에 대해서는 여전히 오류가 나타날 수 있다.

실무 활용

디자이너가 AI와 협업하여 벡터 그래픽을 제작할 때, 부분별로 생성하고 수정할 수 있는 인터랙티브 도구로 활용 가능하다. 특히 로고 디자인이나 아이콘 제작 등 정밀한 제어가 필요한 영역에서 실질적인 도움을 줄 수 있다.

텍스트 가이드 기반의 단계별 캐릭터 스케치 생성 및 실시간 부분 수정
특정 부분(예: 자동차의 휠, 동물의 귀)만 선택적으로 다시 그리는 국소적 편집 도구
교육용 드로잉 가이드 에이전트 (그림 그리는 순서와 방법을 단계별로 제시)
산업 디자인 초안 작성을 위한 구조화된 벡터 에셋 생성

코드 공개 여부: 비공개

키워드

VLM(시각 언어 모델)Vector Sketch(벡터 스케치)GRPO(그룹 상대 정책 최적화)Reinforcement Learning(강화학습)ControlSketch-Part(컨트롤스케치-파트)