PyTorch 2.11.0: FlashAttention-4 지원 및 CUDA 13.0 전환

minorCriticalBreaking Changes17시간 전

GitHub

FlashAttention-4 및 Hopper/Blackwell 지원, 분산 학습용 미분 가능 집합 통신 추가, 기본 CUDA 버전을 13.0으로 업그레이드했다.

Breaking Changes

CUDA 12.8 및 12.9 빌드에서 Volta (SM 7.0) GPU 지원이 제거됐다.

Volta GPU 사용자는 CUDA 12.6 빌드를 사용하거나 소스에서 직접 빌드해야 한다.

PyPI의 기본 설치 버전이 CUDA 13.0으로 변경되어 Maxwell 및 Pascal GPU 지원이 중단됐다.

구형 GPU 사용자는 --index-url을 통해 CUDA 12.6 빌드를 명시적으로 설치해야 한다.

torch.hub의 trust_repo 매개변수 기본값이 'check'로 변경되어 신뢰되지 않은 저장소 실행 시 사용자 확인이 필요하다.

자동화 환경에서는 trust_repo=True를 명시적으로 전달해야 한다.

torch.nn.attention.varlen_attn의 시그니처가 변경되어 선택적 인자가 keyword-only로 바뀌고 is_causal 플래그가 제거됐다.

is_causal=True 대신 window_size=(-1, 0)를 사용하도록 코드를 수정해야 한다.

PT2E 양자화(quantization) 관련 API가 PyTorch 코어에서 제거되고 torchao 라이브러리로 이관됐다.

torchao 패키지를 별도로 설치하고 import 경로를 변경해야 한다.

새 기능

미분 가능 집합 통신(Differentiable Collectives)

분산 학습 과정에서 집합 통신 연산에 대한 자동 미분을 지원하여 더 유연한 분산 모델 설계가 가능하다.

FlexAttention FlashAttention-4 백엔드

Hopper 및 Blackwell GPU에서 FlexAttention 사용 시 FlashAttention-4를 백엔드로 활용할 수 있다.

XPU Graph 지원

XPU 장치에서 커널 실행 시 발생하는 호스트 오버헤드를 줄이기 위한 런타임 최적화 기능을 도입했다.

torch.compile 컨텍스트 매니저 지원

contextlib.ExitStack 및 suppress 패턴을 그래프 중단 없이 트레이싱할 수 있다.

성능 개선

•ROCm 7.2 업그레이드 및 관련 바이너리 빌드 지원을 추가했다.
•torch.load 시 파일 손상 여부를 더 명확하게 알 수 있도록 에러 메시지를 개선했다.
•NVIDIA의 네이티브 행렬 연산 라이브러리를 사용하는 NVGEMM 백엔드를 Inductor에 추가했다.
•MPS 장치에서 2-pass SDPA 사용 시 발생하던 메모리 오염 문제를 수정했다.

버그 수정

•torch.hub에서 발생할 수 있는 ZipSlip 디렉토리 탐색 취약점을 수정했다.
•Inductor에서 복합 커널 벤치마킹 시 0으로 나누기 오류가 발생하던 문제를 해결했다.
•MPS 기기에서 GradTrackingTensor.tolist()가 작동하지 않던 버그를 수정했다.

실무 시사점

최신 NVIDIA 아키텍처인 Hopper 및 Blackwell에서 FlashAttention-4를 통한 성능 최적화가 가능해졌다. 기본 CUDA 버전이 13.0으로 상향되고 Volta 이하 구형 GPU 지원이 제한됨에 따라 인프라 업데이트가 필요하다. 양자화 기능을 사용하는 실무자는 torchao로의 마이그레이션을 준비해야 하며, 분산 학습 시 미분 가능한 통신 연산을 활용해 새로운 최적화 기법을 적용할 수 있다.

이 레포의 다른 릴리즈

v2.10.02달 전 v2.9.14달 전 v2.9.05달 전 v2.8.07달 전 v2.7.19달 전

Breaking Changes

CUDA 12.8 및 12.9 빌드에서 Volta (SM 7.0) GPU 지원이 제거됐다.

Volta GPU 사용자는 CUDA 12.6 빌드를 사용하거나 소스에서 직접 빌드해야 한다.

PyPI의 기본 설치 버전이 CUDA 13.0으로 변경되어 Maxwell 및 Pascal GPU 지원이 중단됐다.

구형 GPU 사용자는 --index-url을 통해 CUDA 12.6 빌드를 명시적으로 설치해야 한다.

torch.hub의 trust_repo 매개변수 기본값이 'check'로 변경되어 신뢰되지 않은 저장소 실행 시 사용자 확인이 필요하다.

자동화 환경에서는 trust_repo=True를 명시적으로 전달해야 한다.

torch.nn.attention.varlen_attn의 시그니처가 변경되어 선택적 인자가 keyword-only로 바뀌고 is_causal 플래그가 제거됐다.

is_causal=True 대신 window_size=(-1, 0)를 사용하도록 코드를 수정해야 한다.

PT2E 양자화(quantization) 관련 API가 PyTorch 코어에서 제거되고 torchao 라이브러리로 이관됐다.

torchao 패키지를 별도로 설치하고 import 경로를 변경해야 한다.

새 기능

미분 가능 집합 통신(Differentiable Collectives)

분산 학습 과정에서 집합 통신 연산에 대한 자동 미분을 지원하여 더 유연한 분산 모델 설계가 가능하다.

FlexAttention FlashAttention-4 백엔드

Hopper 및 Blackwell GPU에서 FlexAttention 사용 시 FlashAttention-4를 백엔드로 활용할 수 있다.

XPU Graph 지원

XPU 장치에서 커널 실행 시 발생하는 호스트 오버헤드를 줄이기 위한 런타임 최적화 기능을 도입했다.

torch.compile 컨텍스트 매니저 지원

contextlib.ExitStack 및 suppress 패턴을 그래프 중단 없이 트레이싱할 수 있다.

성능 개선

•ROCm 7.2 업그레이드 및 관련 바이너리 빌드 지원을 추가했다.

•torch.load 시 파일 손상 여부를 더 명확하게 알 수 있도록 에러 메시지를 개선했다.

•NVIDIA의 네이티브 행렬 연산 라이브러리를 사용하는 NVGEMM 백엔드를 Inductor에 추가했다.

•MPS 장치에서 2-pass SDPA 사용 시 발생하던 메모리 오염 문제를 수정했다.

버그 수정

•torch.hub에서 발생할 수 있는 ZipSlip 디렉토리 탐색 취약점을 수정했다.

•Inductor에서 복합 커널 벤치마킹 시 0으로 나누기 오류가 발생하던 문제를 해결했다.

•MPS 기기에서 GradTrackingTensor.tolist()가 작동하지 않던 버그를 수정했다.

실무 시사점

PyTorch 2.11.0: FlashAttention-4 지원 및 CUDA 13.0 전환

Breaking Changes

새 기능

성능 개선

버그 수정

실무 시사점

관련 토론

댓글

이 레포의 다른 릴리즈

PyTorch 2.11.0: FlashAttention-4 지원 및 CUDA 13.0 전환

Breaking Changes

새 기능

성능 개선

버그 수정

실무 시사점

관련 토론

댓글

이 레포의 다른 릴리즈