CodePercept: MLLM을 위한 코드 기반 시각적 STEM 인지 능력 강화

왜 중요한가

MLLM이 복잡한 과학 및 수학 문제를 풀 때 발생하는 오류의 근본 원인이 논리적 추론 부족이 아닌 시각적 인지 능력의 한계에 있음을 규명했습니다. 모호한 자연어 대신 실행 가능한 코드를 인지의 매개체로 활용하여 모델이 이미지의 구조와 수치를 정밀하게 파악하도록 유도함으로써 STEM 분야의 시각 추론 성능을 획기적으로 높였습니다.

핵심 기여

STEM 시각 추론의 핵심 병목 현상 규명

인지(Perception)와 추론(Reasoning) 요소를 분리하여 독립적으로 확장하며 분석한 결과, 인지 능력의 확장이 추론 능력 확장보다 전체 성능 향상에 더 크게 기여함을 정량적으로 입증함.

Code-as-Perception 패러다임 제시

자연어 캡션의 모호성과 환각 문제를 해결하기 위해, 구조화된 시각 정보를 엄밀하게 표현할 수 있는 실행 가능한 Python 코드를 인지의 핵심 매개체로 도입함.

대규모 ICC-1M 데이터셋 구축

100만 개의 이미지-캡션-코드 트리플렛으로 구성된 데이터셋을 구축하여, 모델이 시각적 특징을 구조화된 코드로 매핑하고 이를 다시 정확한 텍스트로 설명하는 능력을 학습하게 함.

STEM2Code-Eval 벤치마크 도입

문제 풀이 정확도라는 간접 지표 대신, 이미지를 코드로 재구성하는 능력을 직접 측정하여 모델의 순수 시각 인지 능력을 결정론적이고 검증 가능하게 평가하는 새로운 기준을 제시함.

핵심 아이디어 이해하기

기존 MLLM은 복잡한 기하학 도형이나 물리 그래프를 볼 때 '기술적 실어증(Descriptive Aphasia)'을 겪는다. 이는 이미지의 정밀한 좌표나 수치적 관계를 자연어로 완벽하게 묘사하기 어렵기 때문에 발생하는 현상이다. Transformer 기반 모델이 아무리 뛰어난 추론 능력을 갖추었더라도, 입력되는 시각 정보 자체가 부정확하면 잘못된 결론에 도달할 수밖에 없다.

본 논문은 이 문제를 해결하기 위해 '코드'를 인지의 도구로 삼는다. 코드는 좌표, 색상, 기하학적 구조를 수학적으로 엄밀하게 정의할 수 있는 언어다. 모델이 이미지를 보고 이를 재현하는 Python 코드를 생성하게 함으로써, 시각적 정보를 구조화된 데이터로 변환하는 능력을 강제한다. 이는 마치 설계도를 보고 말로 설명하는 대신 직접 CAD 도면을 그리게 하여 이해도를 높이는 것과 같다.

이러한 접근 방식은 모델이 이미지의 아주 세밀한 부분까지 정확하게 인지해야만 실행 가능한 코드를 완성할 수 있게 만든다. 결과적으로 모델은 단순한 픽셀 패턴 인식을 넘어, 이미지 내부의 논리적 구조와 수치적 정밀도를 파악하는 깊이 있는 시각적 이해력을 갖추게 된다. 이는 STEM 분야와 같이 고도의 정밀성이 요구되는 영역에서 MLLM의 실질적인 성능 도약을 가능하게 한다.

방법론

전체 파이프라인은 데이터 구축, 코드 기반 캡션 정제, 이미지-코드 변환 학습의 세 단계로 구성된다. 먼저 matplotlib 라이브러리를 활용하여 기존 STEM 이미지를 코드로 역설계하거나, 파라미터화된 템플릿을 통해 다양한 기하학적 이미지를 합성하여 100만 개의 고품질 이미지-코드 쌍을 확보한다.

Code-Grounded Caption Generation 단계에서는 모델이 생성한 초기 자연어 설명을 실행 가능한 코드에서 추출한 실제 수치 정보와 대조하여 수정한다. t_new = G_refine(t_draft, t_code) 수식을 적용하는데, [자연어 초안 t_draft와 코드 분석 결과 t_code를 입력으로] → [LLM이 사실 관계를 대조하여 수정하는 연산을 수행해] → [환각이 제거된 정확한 캡션 t_new를 얻고] → [이 캡션은 학습 시 정밀한 시각 정보를 전달하는 정답으로 사용된다.]

마지막으로 STEM Image-to-Code Translation 과업을 통해 모델을 직접 학습시킨다. 모델은 이미지를 입력받아 이를 렌더링할 수 있는 Python 코드를 생성해야 한다. 이 과정에서 GRPO 강화학습을 적용하며, 보상 함수 r은 r_fmt + r_cnt로 정의된다. [생성된 코드의 형식과 실행 결과, 이미지 유사도를 입력으로] → [가중치 합산 연산을 수행해] → [최종 보상 점수 r을 얻고] → [이 점수를 극대화하는 방향으로 모델의 가중치를 갱신하여 시각 정보를 코드로 정확히 변환하는 능력을 강화한다.]

주요 결과

MathVision, MathVista 등 6개의 주요 STEM 벤치마크 실험 결과, CodePercept 모델은 기존 SOTA 모델인 Qwen3-VL 대비 평균 2.7%~3.6%의 성능 향상을 기록했다. 특히 인지 능력이 중요한 기하학 및 논리 시각화 문제에서 큰 폭의 개선을 보였으며, 8B 모델이 72B 모델의 성능을 능가하는 효율성을 나타냈다.

새롭게 제안한 STEM2Code-Eval 벤치마크에서 CodePercept-32B 모델은 이미지 점수 68.97, 코드 점수 62.53을 기록하며 GPT-4o(이미지 55.90, 코드 56.19)를 상회하는 시각적 재구성 능력을 증명했다. 이는 모델이 단순히 정답을 맞히는 것을 넘어 이미지의 구조를 완벽하게 이해하고 있음을 시사한다.

Ablation Study를 통해 세 가지 데이터 생성 파이프라인(재현, 다양성, 기하 합성)이 모두 성능 향상에 기여함을 확인했다. 특히 실행 가능한 코드와 검증된 캡션을 결합하여 학습했을 때, 자연어만 사용했을 때보다 인지 정확도가 획기적으로 상승하며 STEM 시각 추론의 병목 현상이 해소됨이 입증됐다.

실무 활용

과학 교육, 공학 설계 보조, 데이터 시각화 자동화 등 정밀한 시각 인지가 필요한 실무 분야에 즉시 적용 가능하다. 복잡한 그래프나 도표를 구조화된 코드로 변환하여 데이터 추출 및 편집을 자동화하는 데 탁월한 성능을 제공한다.

수학 및 물리 교과서의 복잡한 도형 이미지를 편집 가능한 Python 코드로 자동 변환
실험 데이터 그래프를 분석하여 정확한 수치 정보 및 통계적 통찰 추출
시각 장애인을 위해 과학 이미지의 구조와 수치를 정밀하게 설명하는 보조 도구 개발
공학 도면이나 회로도를 디지털화하여 구조적 결함이나 특징을 자동 분석

기술 상세

본 연구는 MLLM의 STEM 성능 한계가 추론(Reasoning) 모델의 크기보다는 인지(Perception) 모델의 정밀도에 기인한다는 가설을 Scaling Law 분석으로 검증했다. 인지 모델의 파라미터를 확장할 때 성능 향상 기울기가 추론 모델 확장 시보다 가파르게 나타남을 확인하여 연구의 방향성을 설정했다.

ICC-1M 데이터셋 구축을 위해 Image Reproduce, Image Diversity, Solid Geometry Synthesis의 세 가지 전략을 병용했다. 특히 Solid Geometry 파이프라인은 3차원 공간상의 좌표와 투영 행렬을 파라미터화하여, 모델이 공간적 관계를 수학적으로 엄밀하게 학습할 수 있는 환경을 제공했다.

학습 알고리즘으로는 SFT와 GRPO를 결합한 2단계 전략을 사용했다. GRPO 단계에서는 코드의 실행 가능성(Exec Rate)과 원본 이미지와의 픽셀 단위 유사도(Image Scoring)를 보상 신호로 활용하여, 모델이 생성하는 코드가 시각적으로 정확할 뿐만 아니라 논리적으로도 결함이 없도록 정렬했다.

STEM2Code-Eval 벤치마크는 1,000개의 고품질 이미지-코드 쌍으로 구성되어 있으며, 단순한 VQA(Visual Question Answering)를 넘어 이미지 재구성(Image Reconstruction)이라는 더 엄격한 기준을 통해 모델의 멀티모달 이해도를 평가한다. 이는 향후 MLLM의 인지 능력을 측정하는 새로운 표준이 될 것으로 기대된다.

한계점

템플릿 기반의 데이터 생성 방식은 실제 세계의 무한한 시각적 다양성을 완벽하게 포괄하기에는 한계가 있으며, 매우 복잡한 3차원 구조나 고도로 추상화된 예술적 이미지에 대해서는 코드 변환의 정확도가 낮아질 수 있다.

키워드

MLLM(멀티모달 대형 언어 모델)STEM Visual Reasoning(STEM 시각 추론)Code-Grounded Perception(코드 기반 인지)ICC-1M(데이터셋)GRPO(그룹 상대 정책 최적화)