링 어텐션
입력 시퀀스를 여러 GPU에 분산하고 Key-Value 쌍을 인접 GPU로 순환시키며 어텐션을 계산하는 기법이다. 단일 GPU 메모리 한계를 넘어 매우 긴 컨텍스트 윈도우를 처리할 수 있게 해준다.