S3-DiT
Scalable Sparse Self-Attention Diffusion Transformer의 약자로, 효율적인 자가 주의 집중 메커니즘을 사용하는 확산 모델 구조이다. 고해상도 이미지 생성 시 계산 복잡도를 줄이면서도 높은 품질을 유지하도록 설계되었다. 본문에서는 6.15B 파라미터 규모의 모델로 언급되어 최적화의 대상이 되었다.