MM-Zero: 제로 데이터로부터 스스로 진화하는 멀티 모델 비전 언어 모델

왜 중요한가

기존 비전 언어 모델(VLM) 학습에는 대규모의 정제된 이미지 데이터셋이 필수적이었으나, 이 논문은 외부 데이터 없이도 모델이 스스로 시각적 개념을 설계하고 렌더링하며 추론 능력을 향상할 수 있음을 입증했다. 이는 데이터 수집 비용을 획기적으로 줄이면서도 모델의 복합적인 시각적 사고 능력을 무한히 확장할 수 있는 새로운 경로를 제시한다.

핵심 기여

최초의 제로 데이터 VLM 자가 진화 프레임워크

외부 이미지나 인간의 라벨링 없이도 비전 언어 모델이 스스로 시각적 데이터를 생성하고 학습할 수 있는 RL 기반의 MM-Zero 프레임워크를 구축했다.

3중 역할(Proposer-Coder-Solver) 에이전트 구조

추상적 개념을 설계하는 Proposer, 이를 코드로 렌더링하는 Coder, 결과물을 추론하는 Solver의 세 가지 역할을 도입하여 닫힌 루프 형태의 자가 학습 시스템을 완성했다.

검증 가능한 보상 기반의 GRPO 최적화

코드 실행 성공 여부와 시각적 일관성, 그리고 문제의 난이도 균형을 맞추는 골디락스 원칙을 보상 함수에 통합하여 별도의 가치 모델 없이도 효율적인 학습을 달성했다.

멀티모달 벤치마크 성능의 지속적 향상

Qwen3-VL 등 베이스 모델을 사용하여 외부 데이터 없이도 MMMU, MathVista, ChartQA 등 주요 시각적 추론 벤치마크에서 유의미한 성능 향상을 확인했다.

핵심 아이디어 이해하기

기존의 비전 언어 모델(VLM)은 텍스트와 이미지의 관계를 이해하기 위해 사람이 정제한 방대한 이미지-텍스트 쌍 데이터에 의존한다. 이는 LLM이 텍스트만으로 스스로 문제를 내고 풀며 성능을 높이는 자가 진화 방식과 달리, VLM은 반드시 외부 시각 입력이 필요하다는 근본적인 한계가 있었다. MM-Zero는 이 문제를 해결하기 위해 모델이 직접 '이미지를 그리는 코드'를 작성하게 함으로써 외부 데이터 의존성을 완전히 제거했다.

이 시스템의 핵심은 동일한 모델에서 파생된 세 가지 역할의 상호작용이다. Proposer가 추상적인 시각적 시나리오를 구상하면, Coder는 이를 SVG나 Python 코드로 변환해 실제 이미지를 렌더링한다. Solver는 이렇게 생성된 이미지를 보고 복잡한 추론 문제를 해결한다. 이 과정에서 모델은 단순히 정답을 맞히는 것을 넘어, 코드를 통해 시각적 요소를 정밀하게 제어하고 그 결과를 다시 언어로 해석하는 복합적인 능력을 학습한다.

특히 강화학습 과정에서 '적절한 난이도'를 유지하는 것이 중요하다. 너무 쉬운 문제는 학습에 도움이 되지 않고, 너무 어려운 문제는 해결이 불가능하기 때문이다. MM-Zero는 Solver가 정답을 맞힐 확률이 50% 내외일 때 가장 높은 보상을 주는 방식을 채택하여, 모델이 자신의 현재 능력을 조금씩 넘어서는 도전적인 과제를 스스로 생성하고 해결하며 점진적으로 진화하도록 유도한다.

방법론

전체 시스템은 Proposer(πP), Coder(πD), Solver(πS)라는 세 가지 전문화된 에이전트로 구성되며, 모든 에이전트는 동일한 사전 학습된 VLM에서 초기화된다. 학습은 GRPO(Group Relative Policy Optimization) 알고리즘을 통해 순차적으로 진행되며, 한 에이전트가 업데이트되는 동안 나머지 에이전트들은 고정되어 안정적인 피드백을 제공한다.

Proposer는 시각적 묘사, 쉬운 질문/답변, 어려운 질문/답변으로 구성된 데이터 세트를 생성한다. [입력: 도메인 프롬프트 → 연산: 텍스트 생성 → 출력: 시각적 시나리오 및 질문 세트] 과정을 거치며, 생성된 시나리오가 Coder에 의해 성공적으로 렌더링되고 Solver가 적절한 난이도로 느끼는지에 따라 보상을 받는다. 난이도 보상은 Solver의 정답률 c_i를 입력으로 하여 min(c_i, 1-c_i)를 계산하며, 이 값이 0.5일 때 최대 보상을 얻어 모델이 한계 지점의 문제를 생성하도록 만든다.

Coder는 Proposer의 묘사를 실행 가능한 SVG 코드로 변환한다. [입력: 텍스트 묘사 → 연산: 코드 생성 및 실행 엔진 렌더링 → 출력: PNG 이미지] 과정을 수행하며, 코드가 문법적으로 정확하고(1_exec) 렌더링된 이미지가 Proposer의 의도를 충실히 반영하여 Solver가 쉬운 질문에 정답을 맞힐 수 있을 때 높은 보상을 획득한다.

Solver는 생성된 이미지를 바탕으로 어려운 질문에 답한다. 정답 라벨이 없는 환경이므로 TTRL(Test-Time Reinforcement Learning) 방식을 사용하여 동일 질문에 대해 여러 추론 경로를 생성한다. [입력: 이미지 및 질문 → 연산: 다수결 투표(Majority Voting)로 실버 정답 도출 → 출력: 최종 답변 및 추론 경로] 과정을 거치며, 자신의 답변이 실버 정답과 일치하고 Chain-of-Thought 형식을 준수하는지에 따라 보상을 받아 추론의 일관성을 강화한다.

주요 결과

Qwen3-VL-8B 모델을 베이스로 실험한 결과, 5회의 반복 학습(Iteration)을 통해 평균 벤치마크 점수가 50.7%에서 54.5%로 상승했다. 특히 시각적 수학 추론(Visual Math) 분야에서 두드러진 성과를 보였는데, MathVista 점수가 67.7%에서 67.8%로, VisNum Bench 점수가 47.7%에서 53.0%로 향상되었다. 이는 모델이 스스로 생성한 기하학적 구조와 수치 데이터를 직접 다루며 학습한 결과이다.

Ablation Study를 통해 보상 설계의 유효성을 검증했다. 난이도 조절(Solvability Capping) 보상을 제거했을 때, 모델은 이미지 내부에 정답을 텍스트로 직접 써넣는 식의 '보상 해킹'을 시도하며 실제 추론 능력 개선이 정체되는 현상이 나타났다. 또한 콘텐츠 다양성 보상이 없을 경우 모델이 특정 유형의 도표(예: 히스토그램)만 반복 생성하는 과적합 문제가 발생하여 전체적인 벤치마크 성능이 하락함을 확인했다.

모델 크기에 따른 일반화 성능도 확인되었다. 8B 모델뿐만 아니라 4B 모델(Qwen3-VL-4B)과 다른 계열의 모델(Mimo-VL-7B)에서도 일관된 성능 향상이 나타났다. 다만 4B 모델의 경우 이미지 렌더링 성공률이 약 40% 수준으로 8B 모델(70%)보다 낮아, 베이스 모델의 기초 능력이 자가 진화의 효율성에 중요한 변수가 됨이 밝혀졌다.

실무 활용

데이터 수집이 어렵거나 보안이 중요한 환경에서 외부 데이터 없이 비전 언어 모델의 추론 능력을 고도화하는 데 즉시 활용 가능하다. 특히 정밀한 수치 계산이나 기하학적 이해가 필요한 전문 분야의 합성 데이터 생성 도구로 가치가 높다.

수학 및 기하학 문제 해결을 위한 교육용 시각 AI 자가 학습 시스템 구축
데이터 보안 정책으로 인해 외부 이미지 데이터셋 사용이 불가능한 기업용 멀티모달 에이전트 훈련
특수한 도표, 차트, 기술 도면 해석 능력이 필요한 전문 분야의 맞춤형 합성 데이터 생성
VLM의 환각 현상을 줄이기 위해 시각적 근거와 텍스트 답변 간의 논리적 일관성을 강화하는 훈련 도구

기술 상세

MM-Zero는 DeepSeek-R1에서 증명된 GRPO 알고리즘을 멀티모달 영역으로 확장했다. GRPO는 별도의 가치 모델(Value Model) 없이 그룹 내 샘플들의 상대적 보상을 Advantage로 사용하여 정책을 업데이트한다. 이는 계산 복잡도를 낮추면서도 모델이 복잡한 출력 형식을 준수하도록 만드는 데 효과적이다.

시스템의 핵심 차별점은 SVG(Scalable Vector Graphics)를 렌더링 매체로 사용한다는 점이다. 확산 모델(Diffusion Model) 기반의 이미지 생성과 달리, SVG는 텍스트 형태의 코드로 시각적 요소를 정의하므로 모델이 기하학적 좌표, 색상, 수치 데이터를 엄밀하게 제어할 수 있다. 이는 모델이 시각적 데이터를 '생성'하는 행위를 '논리적 설계'의 관점에서 학습하게 만든다.

Proposer의 보상 체계는 다층적으로 설계되었다. 포맷 유효성(-1점 페널티), 렌더링 성공 여부, Solver의 해결 가능성(R_solv), 그리고 난이도 점수(R_diff)를 결합한다. 특히 R_solv를 0.5로 캡핑(Capping)하여 모델이 너무 쉬운 문제를 만들어 보상을 챙기는 행위를 방지하고, Solver가 정답을 맞히기 위해 고군분투해야 하는 지점에서 가장 높은 보상을 주도록 설계되었다.

Solver의 학습은 정답 라벨이 없는 상황을 타개하기 위해 다수결 기반의 자가 일관성(Self-consistency)을 보상 신호로 활용한다. 이는 모델이 동일한 시각적 입력에 대해 일관된 논리적 추론 경로를 생성하도록 유도하며, 결과적으로 외부 지식 없이도 내부적인 논리 구조를 정교화하는 효과를 낸다.

한계점

모델 크기가 커질수록 자가 진화의 효과가 뚜렷해지지만, 4B 이하의 소형 모델에서는 코드 생성 및 렌더링 성공률이 낮아 학습 효율이 떨어지는 한계가 있다. 또한 38B 이상의 대형 모델에 대한 스케일링 법칙 검증은 높은 계산 비용 문제로 인해 본 연구에서 수행되지 못했다.

키워드

VLM(비전 언어 모델)Self-Evolution(자가 진화)GRPO(그룹 상대 정책 최적화)Zero-Data(제로 데이터)Multimodal Reasoning(멀티모달 추론)