Hugging Face Transformers v5.10.1 릴리즈로 Gemma 4 12B Unified, Sapiens2, DeepSeek-OCR-2 등 신규 모델 지원 및 병렬화·양자화 성능 개선이 포함되었습니다.
Gemma4 vision pooler가 float16 오버플로우 방지를 위해 float32로 캐스팅하도록 변경되어 출력값에 미세한 차이가 발생할 수 있습니다.
Audio Language Models(ALM)의 기본 모델 클래스 구조가 변경되어, 이전 클래스를 사용하던 코드는 업데이트가 필요합니다.
새로운 기본 모델 클래스를 사용하도록 코드를 수정해야 합니다.
Gemma 4 12B Unified 지원
인코더를 제거하고 경량화된 선형 파이프라인을 사용하는 멀티모달 아키텍처를 도입했습니다.
Sapiens2 모델 추가
10억 개의 이미지를 사전 학습한 고해상도 비전 트랜스포머로 포즈 추정 및 세그멘테이션 작업에 최적화되었습니다.
DeepSeek-OCR-2 모델 추가
SAM 비전 인코더와 Qwen2 하이브리드 어텐션을 결합한 OCR 특화 모델을 지원합니다.
Mellum 모델 추가
JetBrains에서 개발한 코드 생성 특화 Mixture-of-Experts 모델을 추가했습니다.
아직 관련 토론이 없습니다.
댓글을 작성하려면 로그인이 필요합니다.