FlashAttention-4 및 Hopper/Blackwell 지원, 분산 학습용 미분 가능 집합 통신 추가, 기본 CUDA 버전을 13.0으로 업그레이드했다.
CUDA 12.8 및 12.9 빌드에서 Volta (SM 7.0) GPU 지원이 제거됐다.
Volta GPU 사용자는 CUDA 12.6 빌드를 사용하거나 소스에서 직접 빌드해야 한다.
PyPI의 기본 설치 버전이 CUDA 13.0으로 변경되어 Maxwell 및 Pascal GPU 지원이 중단됐다.
구형 GPU 사용자는 --index-url을 통해 CUDA 12.6 빌드를 명시적으로 설치해야 한다.
torch.hub의 trust_repo 매개변수 기본값이 'check'로 변경되어 신뢰되지 않은 저장소 실행 시 사용자 확인이 필요하다.
자동화 환경에서는 trust_repo=True를 명시적으로 전달해야 한다.
torch.nn.attention.varlen_attn의 시그니처가 변경되어 선택적 인자가 keyword-only로 바뀌고 is_causal 플래그가 제거됐다.
is_causal=True 대신 window_size=(-1, 0)를 사용하도록 코드를 수정해야 한다.
PT2E 양자화(quantization) 관련 API가 PyTorch 코어에서 제거되고 torchao 라이브러리로 이관됐다.
torchao 패키지를 별도로 설치하고 import 경로를 변경해야 한다.
미분 가능 집합 통신(Differentiable Collectives)
분산 학습 과정에서 집합 통신 연산에 대한 자동 미분을 지원하여 더 유연한 분산 모델 설계가 가능하다.
FlexAttention FlashAttention-4 백엔드
Hopper 및 Blackwell GPU에서 FlexAttention 사용 시 FlashAttention-4를 백엔드로 활용할 수 있다.
XPU Graph 지원
XPU 장치에서 커널 실행 시 발생하는 호스트 오버헤드를 줄이기 위한 런타임 최적화 기능을 도입했다.
torch.compile 컨텍스트 매니저 지원
contextlib.ExitStack 및 suppress 패턴을 그래프 중단 없이 트레이싱할 수 있다.
최신 NVIDIA 아키텍처인 Hopper 및 Blackwell에서 FlashAttention-4를 통한 성능 최적화가 가능해졌다. 기본 CUDA 버전이 13.0으로 상향되고 Volta 이하 구형 GPU 지원이 제한됨에 따라 인프라 업데이트가 필요하다. 양자화 기능을 사용하는 실무자는 torchao로의 마이그레이션을 준비해야 하며, 분산 학습 시 미분 가능한 통신 연산을 활용해 새로운 최적화 기법을 적용할 수 있다.
아직 관련 토론이 없습니다.
댓글을 작성하려면 로그인이 필요합니다.