VectorGym: SVG 코드 생성, 스케치 및 편집을 위한 멀티태스크 벤치마크

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존 SVG 생성 연구는 단순한 도형이나 자동 생성된 데이터에 의존해 실제 디자인 환경을 반영하지 못했다. 이 논문은 전문가가 직접 작성한 복잡한 편집 및 스케치 데이터를 포함한 VectorGym을 통해 모델의 시각적 이해와 코드 생성 능력을 엄격하게 평가하며, 강화학습을 통해 8B 규모의 모델로도 유료 모델에 필적하는 성능을 낼 수 있음을 입증했다.

왜 중요한가

핵심 기여

VectorGym 벤치마크 구축

전문가가 직접 주석을 단 4가지 핵심 작업(Sketch2SVG, SVG Editing, Text2SVG, SVG Captioning)으로 구성된 종합적인 SVG 평가 프레임워크를 제안했다.

인간 주석 기반의 고난도 데이터셋

단순 기하학적 변환을 넘어 의미론적 이해와 디자인 의도가 필요한 복잡한 SVG 편집 지침 및 수작업 스케치 데이터를 포함하여 벤치마크의 변별력을 높였다.

멀티태스크 강화학습 방법론 도입

GRPO와 커리큘럼 학습을 결합하고 렌더링 기반 보상 체계를 적용하여 4가지 작업을 동시에 최적화하는 학습 전략을 수립했다.

VLM-as-a-Judge (VLMAJ) 평가 프로토콜

기존 픽셀 기반 지표의 한계를 극복하기 위해 VLM을 활용한 새로운 평가 지표를 제안하고 인간 평가와의 높은 상관관계를 검증했다.

핵심 아이디어 이해하기

SVG는 픽셀 데이터가 아닌 코드로 이루어진 프로그램이다. 기존의 시각 언어 모델(VLM)은 이미지를 텍스트로 설명하는 데는 능숙하지만, 시각적 의도를 정확한 SVG 코드로 변환하거나 기존 코드의 구조를 유지하며 복잡한 수정을 가하는 데는 한계가 있었다. 특히 기존 데이터셋은 단순한 아이콘이나 기계적으로 생성된 편집에 치중되어 있어 실제 디자이너의 작업 방식을 반영하지 못했다.

VectorGym은 이를 해결하기 위해 '렌더링 피드백'을 강화학습의 핵심 보상으로 사용한다. 모델이 생성한 SVG 코드를 실제로 이미지로 그려보고(Rendering), 이를 정답 이미지와 비교하여 픽셀 단위의 유사도와 시각적 특징을 점수화한다. 여기에 GRPO(Group Relative Policy Optimization)를 적용하여 여러 개의 응답 중 상대적으로 우수한 코드를 선택하도록 유도하며 학습의 안정성을 높였다.

또한 학습 난이도를 조절하는 커리큘럼 학습을 도입했다. 처음에는 짧고 단순한 SVG 코드부터 시작하여 점차 복잡한 구조와 그라디언트, 애니메이션 등 고차원 요소를 다루도록 배치함으로써 모델이 SVG 문법과 시각적 표현 사이의 관계를 단계적으로 학습하게 했다. 그 결과 8B 규모의 작은 모델로도 훨씬 큰 모델이나 유료 모델에 필적하는 성능을 달성했다.

방법론

전체 접근 방식은 4가지 SVG 관련 작업(VG-Sketch, VG-Edit, VG-Text, VG-Cap)을 하나의 프레임워크에서 동시에 학습하는 멀티태스크 강화학습 구조이다. 데이터셋은 GitHub의 실제 SVG 파일에서 추출한 7,000개의 고품질 샘플을 기반으로 전문가들이 직접 스케치와 편집 지침을 작성하여 구축했다.

핵심 메커니즘은 GRPO 기반의 Reinforcement Learning from Rendering Feedback (RLRF)이다. 모델이 프롬프트 x에 대해 K개의 응답을 생성하면 각 응답의 보상에서 그룹 평균을 빼고 표준편차로 나누어 상대적 우위 점수를 계산한다. [K개의 보상값 입력 → 평균 차감 및 정규화 연산 → 상대적 우위 점수 출력 → 이 점수가 높은 응답의 확률을 높이는 방향으로 가중치 업데이트].

보상 함수는 시각적 유사도와 의미론적 정확도를 결합한다. 생성된 SVG를 렌더링한 이미지와 타겟 이미지 사이의 MSE, LPIPS, DINO 특징 거리를 측정한다. [두 이미지의 픽셀 값 차이 입력 → 제곱 평균 계산 → 손실값 출력 → 100에서 차감하여 보상으로 활용]. 텍스트 캡셔닝 작업의 경우 BGE-M3 임베딩 모델을 사용하여 텍스트 간 유사도를 계산한다.

학습 효율을 위해 응답 길이를 난이도의 대리 지표로 삼는 커리큘럼 학습을 적용했다. 각 작업 내에서 샘플을 길이순으로 정렬하고 짧은 샘플부터 점진적으로 학습 데이터에 포함시켜 복잡한 SVG 구조에 대한 학습 안정성을 확보했다.

주요 결과

제안된 Qwen3-VL 8B Gym 모델은 VectorGym 종합 점수에서 66.05점을 기록하여 훨씬 거대한 모델인 Qwen3-VL 235B(62.32점)를 능가하고 GPT-4o(64.93점)와 대등한 성능을 보였다. 특히 오픈소스 모델 중에서는 독보적인 SOTA 성능을 달성했다.

세부 작업별로 보면 SVG Editing(VG-Edit)에서 82.81점을 기록하며 GPT-4o(82.35점)를 앞질렀다. 이는 강화학습을 통한 미세 조정이 좌표 조작과 구조적 변경의 정밀도를 크게 향상시켰음을 보여준다.

VLM-as-a-Judge(VLMAJ) 평가 결과 Gemini 3 Pro가 인간 평가와 가장 높은 상관관계를 보였으며 이를 통해 제안된 자동 평가 지표가 신뢰할 수 있는 척도임을 입증했다.

기술 상세

VectorGym은 SVG를 단순한 이미지가 아닌 프로그램으로 취급하며 path뿐만 아니라 circle, text, gradient, animation logic 등 고차원 프리미티브를 포함하는 실제 환경 데이터를 사용한다.

강화학습 알고리즘인 GRPO는 PPO의 가치 함수 네트워크 없이도 그룹 내 상대적 보상을 통해 정책을 업데이트하므로 메모리 효율적이며 8개의 H200 GPU 환경에서 약 2일간의 학습으로 최적화가 가능하다.

VLMAJ(VLM-as-a-Judge)는 시각적 정확성, 의미론적 일치성, 코드 품질, 미적 요소를 종합적으로 평가하도록 설계된 전용 프롬프트를 사용하며 0-5점 척도로 점수를 산출한다.

데이터 큐레이션 과정에서 토큰 길이를 2k~8k로 제한하고 컬러 엔트로피 임계값(0.55 이상)을 적용하여 너무 단순하거나 복잡해서 학습에 부적합한 데이터를 필터링했다.

한계점

모델이 다단계(multi-step) 편집 지침을 완벽하게 따르는 데 여전히 어려움을 겪으며, 특히 복잡한 의미론적 수정이 포함된 경우 성능 저하가 관찰되었다.

실무 활용

디자이너의 거친 스케치를 즉시 편집 가능한 SVG 코드로 변환하거나 자연어 명령만으로 복잡한 벡터 그래픽을 수정하는 도구에 직접 활용될 수 있다.

화이트보드 스케치를 웹용 고해상도 벡터 아이콘으로 자동 변환
자연어 명령을 통한 로고 색상, 형태, 텍스트의 정밀 편집
기존 SVG 자산에 대한 자동 설명 생성 및 태깅 자동화

코드 공개 여부: 공개

코드 저장소 보기

키워드

SVG(확장 가능한 벡터 그래픽)Sketch2SVG(스케치-SVG 변환)Reinforcement Learning(강화학습)GRPO(그룹 상대 정책 최적화)Benchmark(벤치마크)VLM(시각 언어 모델)