타일형 실행
대규모 연산을 작은 단위(타일)로 나누어 처리하는 기법이다. GPU의 공유 메모리를 효율적으로 활용하고 메모리 접근 패턴을 최적화하여 긴 시퀀스 데이터 처리 시 발생하는 병목 현상을 해결한다.
시계열 학습 67배 가속, 메모리는 98% 절감한 SoftDTW