핵심 요약
과학 논문의 복잡한 도식을 편집 가능한 코드로 변환하는 것은 데이터 재사용성을 위해 중요하지만, TikZ 언어의 엄격한 문법과 정밀한 좌표 요구사항 때문에 기존 MLLM에게는 어려운 과제였다. 이 논문은 고품질 데이터 엔진과 양방향 검증 강화학습을 통해 시각적 정확도와 코드 실행 가능성을 획기적으로 높여 전문적인 과학 그래픽 합성을 가능하게 한다.
왜 중요한가
과학 논문의 복잡한 도식을 편집 가능한 코드로 변환하는 것은 데이터 재사용성을 위해 중요하지만, TikZ 언어의 엄격한 문법과 정밀한 좌표 요구사항 때문에 기존 MLLM에게는 어려운 과제였다. 이 논문은 고품질 데이터 엔진과 양방향 검증 강화학습을 통해 시각적 정확도와 코드 실행 가능성을 획기적으로 높여 전문적인 과학 그래픽 합성을 가능하게 한다.
핵심 기여
SciTikZ-230K 고품질 데이터셋 구축
실행 중심 데이터 엔진을 통해 11개 과학 분야를 아우르는 23만 개의 정밀한 이미지-TikZ 코드 쌍을 구축했다. MLLM 기반의 시맨틱 검증과 능동적 컴파일 피드백을 결합하여 기존 데이터셋의 노이즈 문제를 해결했다.
Dual Self-Consistency (DSC) 강화학습 패러다임
시각적 일치성(Visual Fidelity)과 구조적 논리(Structural Logic)를 통합하는 새로운 강화학습 방식을 도입했다. 생성된 코드를 다시 이미지로 렌더링하고 이를 다시 코드로 역변환하는 라운드트립 검증을 통해 모델의 자기 일관성을 극대화했다.
SciTikZ-Bench 벤치마크 및 SOTA 성능 달성
기하학적 기초부터 복잡한 계층 구조까지 포함하는 611개의 다면적 벤치마크를 제안했다. 학습된 SciTikZer-8B 모델은 Gemini-2.5-Pro 및 Qwen3-VL-235B와 같은 거대 모델보다 뛰어난 컴파일 성공률과 시각적 정확도를 기록했다.
핵심 아이디어 이해하기
기존의 멀티모달 모델은 이미지를 보고 코드를 생성할 때, 시각적으로는 비슷해 보이지만 실제로는 컴파일이 안 되거나 구조적으로 엉망인 코드를 만드는 경우가 많았다. 이는 모델이 이미지의 픽셀 정보와 코드의 논리적 구조 사이의 깊은 연결고리를 이해하지 못한 채, 단순히 겉모습만 흉내 내는 '시각적 해킹'에 빠지기 쉽기 때문이다.
이 문제를 해결하기 위해 연구진은 '이중 자기 일관성'이라는 개념을 도입했다. 이는 모델이 생성한 코드가 시각적으로 정확해야 할 뿐만 아니라, 그 코드로 그려진 이미지를 다시 모델에게 보여줬을 때 원래의 코드와 논리적으로 동일한 코드를 다시 써 내려갈 수 있어야 한다는 원리이다. 즉, 이미지에서 코드로, 다시 코드에서 이미지로 이어지는 양방향의 논리적 고리를 완성함으로써 모델이 그래픽의 구조적 본질을 학습하게 만든다.
결과적으로 모델은 단순한 픽셀 매칭을 넘어, TikZ 언어의 엄격한 문법과 기하학적 배치를 내면화하게 된다. 이는 마치 숙련된 설계자가 도면을 보고 설계를 이해한 뒤, 그 설계도를 바탕으로 다시 원래의 도면을 완벽하게 재현해낼 수 있는 것과 같은 원리이다.
방법론
전체 프레임워크는 데이터 큐레이션, 지도 학습(SFT), 그리고 이중 자기 일관성 강화학습(DSC RL)의 3단계로 구성된다. 먼저 Execution-Centric Data Engine을 통해 웹에서 수집한 노이즈 섞인 데이터를 MLLM이 수정하고 실제 컴파일러가 검증하는 과정을 거쳐 SciTikZ-230K 데이터셋을 생성한다.
강화학습 단계에서는 GRPO(Group Relative Policy Optimization) 알고리즘을 기반으로 두 단계 최적화를 수행한다. 1단계인 Visual Fidelity Alignment에서는 생성된 코드 y_hat을 입력으로 받아 렌더링 함수 T(y_hat)을 통해 이미지 I_hat을 얻고, 이를 원본 이미지 I와 비교하여 보상을 계산한다. 이때 SigLIP을 이용한 시맨틱 유사도와 LPIPS를 이용한 구조적 정밀도를 결합한 다중 입도(Multi-Granularity) 보상 함수를 사용한다.
2단계인 Self-Consistency Refinement에서는 라운드트립 메커니즘을 적용한다. 모델이 생성한 이미지 I_hat을 다시 모델 자신의 입력으로 넣어 재구성된 코드 y_prime을 생성하게 한다. 원본 코드 y_hat과 재구성된 코드 y_prime 사이의 토큰 편집 거리(TED)와 CrystalBLEU 점수를 계산하여 구조적 일관성을 평가한다. 특히 시각적 정확도가 일정 임계값(tau_gate)을 넘었을 때만 이 일관성 보상을 활성화하는 Fidelity-Gated 메커니즘을 통해 학습의 안정성을 확보했다.
주요 결과
SciTikZ-Bench에서 SciTikZer-8B는 97.2%라는 압도적인 컴파일 성공률을 기록했다. 이는 Gemini-2.5-Pro(88.9%)나 Qwen3-VL-235B(92.1%)와 같은 거대 모델들을 크게 상회하는 수치이다. 시각적 일치성 지표인 SigLIP 점수에서도 93.8점을 기록하여 기존 모델들 대비 정밀한 도식 재현 능력을 입증했다.
외부 데이터셋인 DaTikZ-v3 테스트에서도 SciTikZer-8B는 94.46%의 컴파일 성공률과 가장 낮은 KID(1.14) 점수를 기록하며 강력한 일반화 성능을 보여주었다. 이는 모델이 특정 데이터셋에 과적합되지 않고 TikZ 언어의 범용적인 문법과 구조를 학습했음을 의미한다.
강화학습 단계별 분석(Ablation Study) 결과, DSC RL을 적용했을 때 단순 SFT 대비 컴파일 성공률이 약 16%p 향상되었으며, 특히 구조적 정밀도를 나타내는 LPIPS 거리가 51.4에서 29.7로 크게 단축되어 시각적 품질 개선에 핵심적인 역할을 했음이 확인됐다.
기술 상세
SciTikZer의 아키텍처는 Qwen3-VL-8B를 베이스 모델로 하며, TikZ 코드의 특성에 맞춰 8,192 토큰의 컨텍스트 윈도우를 처리할 수 있도록 최적화되었다. 학습 과정에서 사용된 DSC RL은 비지도 학습 환경에서도 라운드트립 재구성을 통해 논리적 일관성을 강화할 수 있는 구조를 가진다.
보상 설계 측면에서, 단순한 문자열 비교의 한계를 극복하기 위해 도메인 특화 렉서(Lexer)를 이용한 Kernelized Token Edit Distance(TED)를 도입했다. 또한 LaTeX의 반복적인 상용구(Boilerplate)에 의한 점수 왜곡을 방지하기 위해 빈도가 높은 n-gram을 마스킹하는 CrystalBLEU를 적용하여 실질적인 의미 전달력을 정밀하게 측정한다.
구현 세부사항으로는 8개의 NVIDIA A100 GPU 클러스터에서 학습이 진행되었으며, SFT 단계에서는 5e-5의 학습률로 3 에폭을 수행했다. RL 단계에서는 AdamW 옵티마이저와 코사인 학습률 스케줄러를 사용했으며, 안정적인 수렴을 위해 시각적 보상과 코드 일관성 보상의 가중치를 단계적으로 조절하는 전략을 취했다.
한계점
강화학습 루프 내에서 외부 LaTeX 렌더러를 호출하고 여러 번의 순전파(Forward Pass)를 거쳐야 하므로 일반적인 SFT보다 계산 비용이 높다. 또한 렌더링 환경(매크로 패키지, 컴파일러 설정 등)의 차이에 따라 미세한 시각적 불일치가 발생할 수 있는 민감도가 존재한다.
실무 활용
과학 논문이나 기술 문서의 정적 이미지를 편집 가능한 TikZ 코드로 자동 변환하여 문서 작성 효율을 극대화할 수 있다.
- 논문 내 회로도, 순서도, 그래프 이미지를 LaTeX 소스 코드로 역공학하여 수정 및 재사용
- 시각적 도식을 기반으로 한 교육용 콘텐츠의 자동 생성 및 편집 도구 개발
- LLM 기반의 과학 기술 에이전트가 복잡한 시각 정보를 코드로 해석하고 조작하는 기능 구현
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.