Phi-4-reasoning-vision-15B 기술 보고서

왜 중요한가

10배 이상의 연산 자원을 사용하는 대형 모델과 대등한 성능을 내면서도 효율적인 15B 규모의 오픈 웨이트 멀티모달 모델이다. 특히 과학, 수학적 추론과 복잡한 사용자 인터페이스(UI) 이해 능력이 뛰어나 저사양 하드웨어에서도 고성능 AI 에이전트 구현이 가능함을 입증했다.

핵심 기여

효율적인 멀티모달 추론 아키텍처

Mid-fusion 구조와 SigLIP-2 비전 인코더를 결합하여 연산 효율성과 시각적 이해력의 균형을 달성했다.

고품질 데이터 큐레이션 및 증강

2,000억 개의 토큰을 체계적으로 필터링하고 오류를 수정하며 합성 데이터를 증강하여 모델 성능을 극대화했다.

하이브리드 추론 모드 도입

<think> 및 <nothink> 토큰을 사용해 단순 작업에는 빠른 답변을, 복잡한 문제에는 Chain-of-Thought 추론을 선택적으로 수행하도록 설계했다.

동적 해상도 인코딩 적용

NaFlex 변형 SigLIP-2를 사용하여 고해상도 이미지와 GUI 환경에서 세밀한 특징 추출 성능을 개선했다.

핵심 아이디어 이해하기

기존 멀티모달 모델은 이미지 특징을 텍스트 임베딩 공간으로 투영하는 과정에서 세부 정보를 소실하거나, 모든 정보를 처리하기 위해 과도한 연산량을 소모하는 한계가 있었다. 특히 Attention 연산은 입력 길이가 길어질수록 제곱 비례로 비용이 증가하므로 고해상도 이미지 처리에 제약이 컸다. Phi-4-reasoning-vision은 Mid-fusion 방식을 채택하여 비전 인코더가 이미지를 먼저 처리한 후 필요한 시각적 토큰만 언어 모델에 주입함으로써 효율성을 확보했다. 또한 NaFlex 기반의 동적 해상도 기법을 적용해 이미지의 원래 가로세로 비율을 유지하면서도 중요한 세부 요소를 놓치지 않도록 설계했다. 여기에 추론 전용 데이터와 일반 인지 데이터를 섞어 학습함으로써 모델이 스스로 생각이 필요한 시점을 판단하게 했다. 이는 모든 질문에 복잡한 추론 과정을 거치지 않고도 정확하고 빠른 응답을 가능하게 하여 실무적인 활용성을 높였다.

방법론

전체 아키텍처는 SigLIP-2 비전 인코더, MLP 프로젝터, 그리고 Phi-4-Reasoning 언어 모델 백본으로 구성된 Mid-fusion 구조이다. 이미지는 비전 인코더를 거쳐 시각적 토큰으로 변환된 후 MLP를 통해 언어 모델의 임베딩 공간과 정렬된다. 학습은 3단계로 진행된다. 1단계는 이미지-텍스트 정렬을 위해 MLP만 학습시키고, 2단계는 모든 모듈을 고품질 명령 수행 데이터로 학습시키며, 3단계는 긴 문맥 이해와 안전성 강화에 집중한다. 데이터 처리 시 좌표 정규화(Coordinate Normalization)를 적용한다. 이미지의 픽셀 좌표 (x, y)를 입력으로 받아 이미지의 전체 너비와 높이로 나누는 연산을 수행한다. 결과적으로 0에서 1 사이의 부동 소수점 값이 출력되며, 이는 모델이 이미지 해상도 변화에 관계없이 객체의 상대적 위치를 일관되게 파악하는 기준이 된다.

주요 결과

ChartQA(83.3%), MathVista(75.2%), MMMU(54.3%) 등 주요 멀티모달 벤치마크에서 15B 규모임에도 불구하고 훨씬 큰 규모의 모델들과 대등하거나 우수한 성적을 거두었다. 특히 수학 및 과학적 추론 영역에서 강점을 보였다. GUI 이해도를 측정하는 ScreenSpot_v2 벤치마크에서 88.2%의 정확도를 기록하며 컴퓨터 사용 에이전트로서의 높은 잠재력을 입증했다. 이는 동적 해상도 인코더가 고해상도 화면의 작은 아이콘과 텍스트를 효과적으로 포착했기 때문이다. 추론 모드 분석 결과, <think> 토큰을 강제했을 때 MathVerse와 MMMU_val 등 심화 추론이 필요한 데이터셋에서 성능 향상이 관찰되었으나, 일반적인 작업에서는 기본 하이브리드 모드가 가장 효율적인 성능 균형을 보여주었다.

실무 활용

15B의 비교적 작은 크기로 일반 소비자용 GPU에서도 구동이 가능하며, 특히 화면 제어 및 데이터 분석 에이전트 개발에 최적화되어 있다.

복잡한 차트 및 그래프 데이터의 정밀 분석 및 요약
웹사이트나 데스크톱 UI를 이해하고 조작하는 자동화 에이전트
수학 및 과학 문제의 단계별 풀이 및 교육용 보조 도구
영수증이나 세탁 라벨 등 일상적인 이미지 내 텍스트 및 기호 해석

기술 상세

아키텍처는 SigLIP-2(Vision)와 Phi-4-Reasoning(LLM)을 MLP 레이어로 연결한 구조이다. 시각적 토큰은 텍스트 토큰 사이에 인터리빙 방식으로 삽입되어 멀티모달 컨텍스트를 형성한다. 동적 해상도 기법 중 NaFlex 변형을 사용하여 이미지 해상도에 따라 패치 수를 가변적으로 조절한다. 최대 3,600개의 토큰을 사용하여 720p 수준의 고해상도 정보를 보존하며, 이는 Quadratic Attention 비용 문제를 완화하면서도 세밀한 특징 추출을 가능케 한다. 학습 데이터의 20%를 추론 데이터로 구성하고 <think> 태그를 활용한 SFT를 수행했다. 비추론 데이터에는 <nothink> 태그를 붙여 모델이 직접적인 응답과 단계별 추론 중 적절한 모드를 선택하도록 유도했다. 데이터 큐레이션 과정에서 GPT-4o를 활용해 저품질 데이터를 필터링하고, 수학 문제의 경우 이미지 설명을 상세히 생성하여 텍스트 백본의 추론 능력을 시각적 맥락에 전이시키는 전략을 사용했다.

한계점

더 큰 규모의 상용 모델들에 비해 비제약적인 광범위한 비전-언어 벤치마크에서는 성능이 다소 낮을 수 있다. 또한 추론 모드와 비추론 모드 사이의 전환 경계가 데이터 분포에 따라 완벽하지 않을 수 있으며, 매우 미세한 이미지 세부 사항에 대한 이해에는 여전히 한계가 존재한다.

키워드

VLM(시각 언어 모델)Multimodal Reasoning(멀티모달 추론)Chain-of-Thought(사고의 사슬)Mid-fusion(중간 융합)GUI Grounding(GUI 접지)