VecGlypher: 언어 모델을 활용한 통합 벡터 글리프 생성

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존 폰트 생성은 이미지를 만든 후 벡터로 변환하는 복잡한 과정이 필요했으나, VecGlypher는 언어 모델이 직접 SVG 코드를 생성하여 이 과정을 하나로 통합했다. 이를 통해 전문 지식 없이도 텍스트 설명이나 몇 개의 샘플만으로 고품질의 편집 가능한 폰트를 즉시 제작할 수 있다.

왜 중요한가

핵심 기여

통합 벡터 글리프 생성 프레임워크

텍스트 설명과 이미지 예시를 모두 입력으로 받아 직접 SVG 경로 토큰을 생성하는 단일 멀티모달 디코더 아키텍처를 구축했다.

2단계 학습 레시피

39K개의 Envato 폰트로 SVG 구문을 익히는 단계와 2.5K개의 Google Fonts로 지시어 정렬을 수행하는 단계를 통해 생성 안정성과 스타일 제어력을 확보했다.

타이포그래피 특화 데이터 엔지니어링

좌표계 정규화, 경로 표준화, 중복 제거 및 고정 정밀도 양자화를 포함하는 전처리 파이프라인을 설계하여 긴 시퀀스 디코딩의 오류를 최소화했다.

핵심 아이디어 이해하기

Transformer 기반의 언어 모델은 텍스트 시퀀스 내의 토큰 간 관계를 파악하여 다음 단어를 예측하는 데 탁월하다. 폰트의 외곽선을 정의하는 SVG 경로는 명령어와 좌표로 이루어진 일종의 코드 시퀀스이므로, 이를 언어 모델이 학습해야 할 문장으로 간주할 수 있다. 기존 방식은 비트맵 이미지를 먼저 생성한 뒤 벡터화하는 과정에서 해상도 손실이나 외곽선 왜곡이 발생하는 한계가 있었다. VecGlypher는 이러한 한계를 극복하기 위해 폰트 생성을 언어 모델링 문제로 재정의했다. 모델은 스타일 설명이나 참조 글리프의 시각적 특징을 컨텍스트로 입력받은 뒤, Attention Mechanism을 통해 입력된 스타일 정보와 대상 문자의 기하학적 구조를 연결하며 SVG의 그리기 명령과 좌표 토큰을 순차적으로 생성한다. 이 접근 방식은 중간 단계의 래스터 이미지를 거치지 않으므로 데이터 손실이 없으며, 생성된 결과물은 즉시 폰트 편집 소프트웨어에서 수정 가능한 벡터 형태를 유지한다.

방법론

VecGlypher는 멀티모달 디코더 아키텍처를 기반으로 하며, 스타일 설명 또는 참조 글리프와 대상 문자 ID를 입력으로 사용한다. 텍스트는 토크나이저를, 이미지는 인코더를 거쳐 LLM의 입력 시퀀스로 변환되며, 모델은 이를 바탕으로 SVG 경로 문자열을 오토레그레시브하게 예측한다. 이 과정에서 복잡한 SVG 속성을 배제하고 MoveTo, LineTo, Quadratic Bézier, ClosePath 네 가지 핵심 명령어로 데이터를 단순화하여 학습 효율을 높였다. 데이터 전처리 과정에서는 모든 글리프를 1000x1000 좌표계로 정규화하고 수직 베이스라인에 정렬했다. 좌표값 (x, y)가 주어지면 이를 소수점 첫째 자리까지 양자화한 뒤 문자열 토큰으로 변환한다. [수치 좌표 입력 → 양자화 연산 → 이산적 토큰 출력] 과정을 통해 모델은 연속적인 공간의 좌표를 언어 모델이 처리하기 쉬운 이산적인 기호로 인식하게 되며, 이는 긴 시퀀스 생성 시 발생할 수 있는 누적 오차를 줄이는 역할을 한다. 학습 전략은 2단계로 구성된다. 1단계에서는 39,000개의 Envato 폰트 데이터를 활용해 대규모 SFT를 수행함으로써 모델이 SVG 문법과 기본적인 글자 형태를 마스터하도록 한다. 2단계에서는 전문가가 정교하게 태깅한 2,500개의 Google Fonts 데이터를 사용하여 텍스트 지시어와 이미지 예시에 따른 세밀한 스타일 전이 능력을 정렬한다.

주요 결과

메인 벤치마크인 Google Fonts 테스트 세트 평가에서 VecGlypher는 텍스트 기반 생성 시 R-ACC(상대적 OCR 정확도) 100.4를 기록하며 일반 LLM인 GPT-4(43.98)나 Claude Sonnet 4.5(46.65)를 압도했다. 이는 모델이 생성한 벡터 글리프가 실제 문자로 완벽하게 인식될 만큼 기하학적 완성도가 높음을 의미한다. 이미지 참조 생성 실험에서도 DeepVecFont-v2 및 DualVector와 같은 기존 전용 모델 대비 Chamfer Distance(CD)와 FID 지표에서 유의미한 개선을 보였다. 특히 27B 모델은 CD 1.18, FID 2.32를 기록하며 얇은 획이나 복잡한 세리프 구조를 보존하는 데 있어 기존 SOTA 모델보다 뛰어난 성능을 입증했다. Ablation Study를 통해 모델 파라미터 규모가 커질수록 스타일 일관성과 외곽선 폐쇄 능력이 비약적으로 향상됨을 확인했다. 또한 상대 좌표 대신 절대 좌표를 사용하여 시퀀스를 직렬화하는 방식이 전체적인 글자 형태의 왜곡을 방지하는 데 가장 효과적임이 실험적으로 증명됐다.

기술 상세

아키텍처는 Gemma 3 및 Llama 3.3을 언어 모델 백본으로 사용하며, 시각적 참조를 위해 CLIP ViT-B/32 또는 DINOv2 인코더를 결합한 멀티모달 구조를 취한다. SVG 직렬화 시 모든 글리프를 UPM=1000으로 정규화하고, 경로 데이터를 표준화된 형식으로 변환하여 모델이 일관된 데이터 분포를 학습하도록 설계했다. 학습 시에는 Next-token Cross-entropy 손실 함수를 사용하여 SVG 토큰 시퀀스의 확률 분포를 최적화한다. 추론 단계에서는 Greedy Sampling을 기본으로 하되, 구문적으로 유효한 SVG가 생성되도록 엄격한 시스템 프롬프트를 적용한다. 기존 연구들이 소규모 데이터셋에 의존했던 것과 달리, 39K+2.5K 규모의 대규모 폰트 데이터를 구축하여 모델의 일반화 성능을 극대화했다.

한계점

현재 연구 범위는 숫자와 영문 대소문자(0-9, a-z, A-Z)로 한정되어 있으며, 한글과 같은 복잡한 조합형 문자나 다국어 지원, 그리고 글자 간 연결이 중요한 필기체 생성에는 추가적인 연구가 필요하다.

실무 활용

디자이너가 자연어 프롬프트만으로 폰트 시안을 생성하거나, 소수의 샘플 글자만으로 전체 폰트 세트를 자동 완성하는 실무 도구로 활용 가능하다.

자연어 설명을 통한 맞춤형 로고 및 타이포그래피 디자인 자동화
디자이너가 그린 소수 글자를 바탕으로 한 전체 알파벳 스타일 확장
웹/앱 인터페이스를 위한 가변적이고 편집 가능한 벡터 아이콘 생성

코드 공개 여부: 공개

코드 저장소 보기

키워드

SVG(확장 가능한 벡터 그래픽)Multimodal LLM(멀티모달 대형 언어 모델)Vector Graphics(벡터 그래픽스)Typography(타이포그래피)Autoregressive Generation(자기회귀 생성)