핵심 요약
기존 시각-언어 모델(VLM)은 차트의 기하학적 패턴, 수치 데이터, 자연어 설명을 통합적으로 추론하는 데 한계가 있었다. ChartNet은 실행 가능한 코드와 수치 테이블이 정렬된 150만 개의 대규모 데이터를 제공하여, 오픈소스 모델이 유료 모델인 GPT-4o보다 더 정확하게 차트를 해석하고 데이터를 추출할 수 있는 기반을 마련했다.
왜 중요한가
기존 시각-언어 모델(VLM)은 차트의 기하학적 패턴, 수치 데이터, 자연어 설명을 통합적으로 추론하는 데 한계가 있었다. ChartNet은 실행 가능한 코드와 수치 테이블이 정렬된 150만 개의 대규모 데이터를 제공하여, 오픈소스 모델이 유료 모델인 GPT-4o보다 더 정확하게 차트를 해석하고 데이터를 추출할 수 있는 기반을 마련했다.
핵심 기여
코드 가이드 기반의 대규모 합성 데이터 생성 파이프라인
150만 개의 차트 샘플을 생성하기 위해 시각적 차트를 코드로 복원하고 이를 다시 변형하여 24가지 차트 유형과 6개 플로팅 라이브러리를 포괄하는 자동화된 파이프라인을 구축했다.
5가지 모달리티가 정렬된 ChartNet 데이터셋 공개
각 샘플은 렌더링된 이미지, 실행 가능한 플로팅 코드, 원본 데이터 테이블(CSV), 자연어 요약, 사고 사슬(CoT) 기반의 질의응답 쌍으로 구성되어 정밀한 교차 모달 정렬을 제공한다.
소형 모델의 성능 극대화 및 GPT-4o 추월
ChartNet으로 파인튜닝된 2B 및 7B 규모의 모델들이 차트 데이터 추출 및 요약 작업에서 GPT-4o 및 70B급 대형 모델들의 성능을 상회함을 입증했다.
핵심 아이디어 이해하기
기존의 VLM은 이미지 내의 픽셀 정보를 텍스트 임베딩과 연결하는 방식으로 학습되지만, 차트처럼 정밀한 수치와 구조적 논리가 필요한 데이터에서는 시각적 특징만으로 정확한 값을 추론하기 어렵다. 특히 차트의 축, 범례, 데이터 포인트 간의 관계를 파악하는 데 필요한 구조적 이해가 부족하여 단순한 캡셔닝 이상의 복잡한 추론에서 한계를 보인다.
ChartNet은 차트를 단순한 이미지가 아닌 실행 가능한 코드의 결과물로 정의하여 이 문제를 해결한다. 차트 이미지를 코드로 역설계하고, 이 코드를 LLM이 수정하여 새로운 데이터와 스타일을 가진 차트를 무한히 생성하는 방식을 취한다. 이 과정에서 이미지, 코드, 원본 수치(CSV)가 완벽하게 일치하는 쌍을 얻게 되어 모델이 시각적 패턴과 실제 수치 사이의 논리적 연결 고리를 학습할 수 있게 한다.
결과적으로 모델은 차트의 픽셀을 보는 동시에 그 이면의 데이터 생성 로직을 이해하게 된다. 이는 모델이 차트에서 단순히 글자를 읽는 수준을 넘어, 기하학적 형태로부터 정확한 수치를 복원하고 복잡한 비교 연산을 수행할 수 있는 능력을 갖추게 함을 의미한다.
방법론
전체 파이프라인은 차트-투-코드 복원, 코드 가이드 증강, 차트 렌더링, 품질 필터링, 속성 생성의 5단계로 구성된다. 15만 개의 초기 시드 차트로부터 시작하여 VLM을 통해 코드를 추출하고, 이를 기반으로 150만 개의 변형된 차트 튜플을 생성한다.
코드 가이드 증강 단계에서는 LLM(gpt-oss-120b)을 사용하여 기존 코드를 재작성한다. [입력된 플로팅 코드 → 차트 유형 및 라이브러리 변경 지시 수행 → 수정된 실행 가능 코드 출력] 순으로 연산이 이루어지며, 이를 통해 데이터의 일관성을 유지하면서 시각적 다양성을 확보한다.
품질 필터링 단계에서는 VLM을 활용해 렌더링된 이미지의 결함을 검사한다. [차트 이미지 입력 → 시각적 결함 유무 판별 → 필터링된 고품질 데이터셋 출력] 과정을 거쳐 최종 데이터의 신뢰도를 높인다. 마지막으로 사고 사슬(CoT) 기반의 QA 쌍을 생성하기 위해 Vision-R1 프레임워크를 활용하여 다단계 추론 질문과 답변을 도출한다.
주요 결과
ChartNet으로 파인튜닝된 Granite-Vision-3.3-2b 모델은 차트 데이터 추출(Chart-to-Table) 작업에서 70.3%의 정확도를 기록하며 GPT-4o(46.7%)를 크게 앞질렀다. 이는 소형 모델이라도 고품질의 정렬된 데이터를 통해 특정 도메인에서 거대 모델을 압도할 수 있음을 보여준다.
차트 요약(Chart-to-Text) 및 복원(Chart-to-Code) 실험에서도 모든 모델 규모에서 성능 향상이 관찰되었다. 특히 LLaVA-v1.6-Mistral-7b 모델은 ChartNet 학습 후 요약 성능이 기존 대비 29.1포인트 상승하는 등 비약적인 발전을 보였다.
실제 세계의 벤치마크인 ChartCap 및 ChartMimic-v2에서도 ChartNet 학습 모델들은 높은 일반화 성능을 입증했다. SmolVLM-256M과 같은 초소형 모델조차 ChartNet 학습 후 유의미한 차트 해석 능력을 갖추게 된 것이 확인되었다.
기술 상세
ChartNet의 핵심 아키텍처 기여는 코드 중심의 멀티모달 정렬이다. 이미지를 텍스트로 설명하는 대신, 이미지를 생성하는 논리적 근거인 코드를 중간 매개체로 사용하여 시각적 기하학(Geometry)과 수치적 데이터(Numerical Data) 사이의 구조적 감독을 제공한다.
데이터 생성 시 Vision-R1 프레임워크를 도입하여 Pseudo-CoT 시퀀스를 구축했다. 이는 요약, 캡션, 추론, 결론의 4단계로 구성되며, 언어 전용 모델이 시각적 입력 없이도 이미지의 세부 사항을 논리적으로 처리할 수 있도록 모달리티 브리징(Modality Bridging) 기술을 적용했다.
학습에는 Supervised Fine-Tuning(SFT) 방식을 사용했으며, 1B 미만의 Ultra-Compact 모델부터 7B급 Medium 모델까지 다양한 스케일에 대해 검증을 수행했다. 특히 168시간마다 100만 개 이상의 주석 데이터를 생성할 수 있는 고효율 분산 GPU 인프라를 활용한 점이 특징이다.
한계점
차트 유형에 따라 복잡도가 높을 경우 코드 실행 실패율이 높아지며, 특정 라이브러리나 복잡한 차트 유형의 경우 렌더링 오류(라벨 겹침 등)가 발생할 확률이 상대적으로 높다.
실무 활용
ChartNet은 금융 보고서 분석, 과학 논문 데이터 추출, 자동 차트 생성 도구 개발 등 정밀한 데이터 해석이 필요한 실무 분야에 즉시 적용 가능하다.
- 금융 보고서 내 복잡한 차트로부터 수치 데이터를 자동 추출하여 데이터베이스화
- 시각 장애인을 위한 상세한 차트 논리 구조 설명 및 요약 서비스
- 자연어 명령을 통한 데이터 시각화 코드 자동 생성 및 수정 에이전트
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.