Triton 커널
GPU 하드웨어의 성능을 최대한 끌어내기 위해 작성된 고성능 연산 단위다. 여러 개의 GPU 작업을 하나로 합쳐(Fusion) 메모리 대역폭 낭비와 실행 오버헤드를 줄이는 데 사용된다.