Transformers 5.4.0: Mistral 4·Jina v3 지원 및 이미지 프로세서 통합

minorCriticalBreaking Changes4시간 전

GitHub

Mistral 4와 Jina Embeddings v3를 포함한 다수의 신규 모델 지원과 함께 이미지 프로세서 아키텍처 통합 및 설정 클래스 리팩터링이 이루어졌다.

Breaking Changes

BaseImageProcessor와 BaseImageProcessorFast가 통합 백엔드 아키텍처로 교체되었으며 image_processing_utils_fast 모듈이 삭제됐다.

새로운 통합 모듈인 image_processing_utils를 사용하도록 마이그레이션이 필요하다.

PreTrainedConfig 및 모델 설정 클래스가 @dataclass로 리팩터링되어 더 이상 위치 인자(positional arguments)를 허용하지 않는다.

설정 클래스 인스턴스화 시 모든 인자를 키워드 인자(keyword arguments) 형식으로 변경해야 한다.

Flash Attention 2(FA2) 지원을 위해 최소 2.3.3 버전이 요구되며 Flash Attention 4(FA4) 초기 지원이 추가됐다.

이전 버전의 FA2를 사용하는 경우 2.3.3 이상으로 업그레이드해야 한다.

대부분의 주요 모델 forward 시그니처에서 cache_position 인자가 제거되었으며 이제 generate 내부에서 자동으로 처리된다.

모델 호출 시 직접 전달하던 cache_position 인자를 제거해야 한다.

새 기능

Mistral 4 지원

Instruct, Reasoning, Devstral 능력을 하나로 통합하고 128개 전문가를 갖춘 MoE 아키텍처 기반의 하이브리드 모델을 지원한다.

Jina Embeddings v3

RoPE를 통해 최대 8192 토큰을 지원하며 5가지 작업별 LoRA 어댑터를 내장한 다국어 임베딩 모델이 추가됐다.

PI0 로봇 모델

시각 관측과 언어 지시를 동시에 처리하여 로봇 동작을 생성하는 Vision-Language-Action 모델이 도입됐다.

VidEoMT

Vision Transformer 기반의 경량 비디오 세그멘테이션 모델로 기존 방식 대비 5~10배 빠른 추론 속도를 제공한다.

PaddlePaddle 모델군 추가

SLANeXt(표 구조 인식), PP-OCRv5(텍스트 인식 및 검출) 등 바이두의 경량 비전 모델들이 대거 추가됐다.

성능 개선

•FP8 그룹화 및 배치 행렬 곱셈 성능이 최대 30배 향상됐다.
•토크나이저 로딩 시 불필요한 파일 파싱과 대규모 어휘집의 딥카피를 제거하여 오버헤드를 줄였다.
•연속 배칭(Continuous Batching)을 위한 paged_attention 커널이 추가됐다.
•Tensor Parallel 가중치 샤딩 시 부모 모듈 속성을 업데이트하여 PEFT 라이브러리와의 호환성을 개선했다.

버그 수정

•DeepSeek V2/V3 및 ModernBERT의 허브 토크나이저 클래스 이름 오류를 수정했다.
•Llama 4 시각 로터리 임베딩 초기화 시 device_map='auto' 환경에서 발생하는 오류를 해결했다.
•KV 캐시 지속 시 발생하는 텐서 인덱싱 충돌 문제를 수정했다.

실무 시사점

이번 릴리즈는 이미지 프로세서와 설정 클래스의 구조적 변화를 포함하고 있어 기존 코드를 v5.4.0으로 업그레이드할 때 반드시 키워드 인자 사용 여부와 임포트 경로를 확인해야 한다. Mistral 4와 Jina v3 등 최신 모델 지원이 강화되었으며 특히 FP8 추론 성능의 대폭 향상과 paged_attention 도입으로 서빙 효율성이 개선될 것으로 기대된다. 로봇 제어를 위한 PI0 모델의 추가는 Transformers 라이브러리의 활용 범위를 물리적 에이전트 영역으로 더욱 확장하는 신호로 해석된다.

이 레포의 다른 릴리즈

v5.3.022일 전 v5.2.01달 전 v5.1.01달 전 v5.0.01달 전 v5.0.0rc31달 전