MedGemma 1.5 기술 보고서

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

MedGemma 1.5는 기존 2D 의료 영상 분석을 넘어 3D CT/MRI 부피 데이터와 초고해상도 병리 슬라이드 이미지를 단일 아키텍처에서 처리할 수 있는 오픈 소스 의료 특화 모델이다. 4B 파라미터의 효율적인 크기로 전문적인 의료 영상 진단 보조와 복잡한 의료 문서 구조화를 동시에 수행할 수 있어 차세대 의료 AI 시스템 구축의 핵심 기반이 될 것으로 기대된다.

왜 중요한가

핵심 기여

고차원 의료 영상 모달리티 통합

3D CT/MRI 부피 데이터, 병리 전체 슬라이드 이미지(WSI), 시계열 흉부 X-ray 분석 기능을 단일 모델 아키텍처 내에 통합했다.

장기 문맥 3D 부피 슬라이싱 및 병리 샘플링 기법

최대 85개의 3D axial 슬라이스를 처리하는 윈도우 매핑 기술과 병리 이미지의 공간적 맥락을 유지하는 126개 패치 샘플링 전략을 통해 고해상도 의료 데이터의 효율적 학습을 가능하게 했다.

의료 지식 및 문서 이해 능력 강화

MedQA 정확도를 5% 향상시키고, 복잡한 실험실 보고서(Lab Report)에서 계층적 JSON 구조를 추출하는 능력을 확보하여 의료 행정 자동화 가능성을 입증했다.

도메인 특화 증류 및 강화학습 적용

Gemma 3를 기반으로 의료 도메인 전용 교사 모델을 활용한 지식 증류(Distillation)와 강화학습(RL)을 적용하여 의료 추론 성능을 최적화했다.

핵심 아이디어 이해하기

기존의 멀티모달 모델은 주로 단일 2D 이미지 처리에 최적화되어 있어, 수백 장의 슬라이스로 구성된 3D CT나 기가픽셀급 병리 이미지를 처리하는 데 한계가 있었다. Transformer의 Attention 연산은 입력 토큰 수에 따라 메모리 요구량이 급증하므로, 고해상도 의료 영상을 그대로 입력하면 연산 병목이 발생한다.

MedGemma 1.5는 이 문제를 해결하기 위해 '고차원 데이터의 전략적 샘플링'과 '도메인 지식 주입'을 결합했다. 3D 부피 데이터의 경우, 인체 조직의 특성에 맞춘 채널별 윈도우 매핑(HU 값 변환)을 통해 핵심 정보를 보존하면서 슬라이스 수를 제한하여 토큰량을 관리한다. 병리 이미지에서는 조직이 포함된 영역만 마스킹하여 추출하고 무작위 서브샘플링을 통해 공간적 선후 관계를 유지하며 모델이 전체 맥락을 파악하도록 설계했다.

결과적으로 모델은 수만 개의 비전 토큰을 효율적으로 압축하여 처리하면서도, 의료 현장에서 필수적인 3D 해부학적 구조 이해와 시계열적 변화 추적 능력을 갖추게 되었다. 이는 범용 모델이 놓치기 쉬운 미세한 병변이나 복잡한 의료 용어 간의 관계를 더 정확하게 포착할 수 있게 한다.

방법론

MedGemma 1.5 4B는 Gemma 3 아키텍처를 기반으로 하며, 400M 파라미터의 MedSigLIP 비전 인코더를 고정한 채 언어 디코더를 추가 학습시키는 방식을 취한다. 학습 과정은 지속적 사전 학습(Continued Pretraining), 지식 증류(Distillation), 강화학습(RL)의 3단계로 구성된다.

3D CT 부피 데이터 처리를 위해 Hounsfield Unit(HU) 값을 RGB 채널로 매핑하는 멀티 채널 윈도우 기법을 사용한다. [원시 HU 값 입력 → 특정 장기/조직 강조 윈도우 연산 → 0-255 범위의 RGB 출력 → 비전 인코더 입력] 순으로 처리하여 모델이 뼈, 연조직, 폐 실질 등 각기 다른 밀도의 조직을 명확히 구분하게 한다. 학습 시에는 메모리 관리를 위해 쿼리당 최대 85개의 axial 슬라이스(약 21,760개 토큰)로 제한한다.

병리 전체 슬라이드 이미지(WSI) 처리를 위해서는 조직 분할 알고리즘을 통해 유효한 영역만 추출한 뒤, 896x896 크기의 패치 126개를 무작위로 샘플링한다. [전체 슬라이드 입력 → 조직 마스크 생성 → 패치 추출 및 무작위 샘플링 → 공간 순서 유지 인코딩 → 32,256개 비전 토큰 생성] 과정을 거쳐 기가픽셀급 이미지의 전역적 특징을 학습한다.

주요 결과

3D 영상 분석에서 MedGemma 1.5 4B는 이전 버전 대비 3D MRI 조건 분류 정확도가 11%, 3D CT 분류 정확도가 3% 절대 향상되었다. 특히 병리 이미지 분석(WSI)에서는 macro F1 점수가 47% 상승하는 괄목할만한 성과를 거두었다. 흉부 X-ray의 해부학적 위치 특정(Localization) 성능은 IoU 기준 35% 개선되어 정밀한 병변 탐지가 가능해졌다.

의료 텍스트 및 문서 이해 측면에서도 성능 향상이 뚜렷하다. MedQA 정확도는 69.1%로 이전 모델(64.4%) 대비 상승했으며, 특히 전자의무기록 질의응답(EHRQA)에서는 22%의 정확도 향상을 기록했다. 실험실 보고서 정보 추출 작업에서도 평균 18%의 macro F1 향상을 보이며 구조화된 데이터 생성 능력을 입증했다.

비교 실험에서 MedGemma 1.5 4B는 유사한 크기의 범용 모델인 Qwen3 VL 4B와 비교했을 때, 일반적인 의료 지식 검색에서는 다소 밀릴 수 있으나 전문적인 임상 시각 작업(Clinical Vision Tasks)에서는 압도적인 성능 우위를 점하는 것으로 나타났다.

기술 상세

MedGemma 1.5는 Gemma 3 4B 모델을 백본으로 사용하며, 시각적 입력을 위해 MedSigLIP-0.4B를 통합한 멀티모달 구조를 가진다. 고차원 데이터를 처리하기 위해 컨텍스트 윈도우를 32K 토큰까지 확장하여 대량의 비전 토큰과 텍스트 프롬프트를 동시에 수용할 수 있도록 설계되었다.

학습 전략 측면에서는 도메인 특화 교사 모델(Teacher Model)을 활용한 지식 증류가 핵심이다. CT, MRI, 병리 이미지 등 각 모달리티에 특화된 전문가 모델의 로짓(Logits)을 학습에 활용하여, 4B라는 상대적으로 작은 파라미터 수로도 대형 모델에 근접하는 전문성을 확보했다. 또한 강화학습 단계에서 ROUGE-L 등의 지표를 보상 함수로 사용하여 의료 리포트 생성의 정확도를 높였다.

구현 세부사항으로는 3D 데이터의 공간적 연속성을 보존하기 위해 슬라이스 간의 순서를 유지하는 인코딩 방식을 채택했으며, CT 데이터의 경우 Hounsfield Unit의 광범위한 동적 범위를 보존하기 위해 Red(전신), Green(연조직), Blue(뇌/석회화) 채널에 서로 다른 윈도우 설정을 적용하는 전처리 파이프라인을 구축했다.

한계점

모델의 범용성이 확장됨에 따라 일부 기존 벤치마크(SLAKE, VQA-RAD 등)에서 미세한 성능 저하가 관찰되는 '의료 일반화(Medical Generalist)'의 트레이드오프가 발생했다. 또한 본 모델은 의료 기기가 아니며 실제 임상 의사결정에 직접 사용하기 위해서는 추가적인 미세 조정과 검증이 필요함을 명시하고 있다.

실무 활용

MedGemma 1.5는 오픈 웨이트 모델로서 의료 현장의 다양한 디지털 전환 작업에 즉시 활용 가능하다. 특히 3D 영상 판독 보조와 복잡한 의료 문서의 자동 구조화에 강점을 가진다.

3D CT/MRI 영상 내 주요 병변(종양, 동맥류 등) 자동 감지 및 분류 보조
스캔된 종이 실험실 보고서나 PDF 형태의 EHR 데이터를 JSON 형식으로 자동 변환 및 구조화
과거와 현재의 흉부 X-ray 비교를 통한 질환의 호전/악화 상태 자동 분석
대규모 병리 슬라이드 이미지에 대한 자동 진단 리포트 초안 생성

코드 공개 여부: 공개

코드 저장소 보기

키워드

MedGemma(메드젬마)3D Medical Imaging(3D 의료 영상)WSI(전체 슬라이드 이미지)Clinical Reasoning(임상 추론)Multimodal LLM(멀티모달 대형 언어 모델)Knowledge Distillation(지식 증류)