Transformers 5.10.1: Gemma 4 Unified·Sapiens2·DeepSeek-OCR-2 지원

patchNotableBreaking Changes4시간 전

Hugging Face Transformers v5.10.1 릴리즈로 Gemma 4 12B Unified, Sapiens2, DeepSeek-OCR-2 등 신규 모델 지원 및 병렬화·양자화 성능 개선이 포함되었습니다.

Breaking Changes

Gemma4 vision pooler가 float16 오버플로우 방지를 위해 float32로 캐스팅하도록 변경되어 출력값에 미세한 차이가 발생할 수 있습니다.

Audio Language Models(ALM)의 기본 모델 클래스 구조가 변경되어, 이전 클래스를 사용하던 코드는 업데이트가 필요합니다.

새로운 기본 모델 클래스를 사용하도록 코드를 수정해야 합니다.

Gemma 4 12B Unified 지원

인코더를 제거하고 경량화된 선형 파이프라인을 사용하는 멀티모달 아키텍처를 도입했습니다.

Sapiens2 모델 추가

10억 개의 이미지를 사전 학습한 고해상도 비전 트랜스포머로 포즈 추정 및 세그멘테이션 작업에 최적화되었습니다.

DeepSeek-OCR-2 모델 추가

SAM 비전 인코더와 Qwen2 하이브리드 어텐션을 결합한 OCR 특화 모델을 지원합니다.

Mellum 모델 추가

JetBrains에서 개발한 코드 생성 특화 Mixture-of-Experts 모델을 추가했습니다.