융합 커널
여러 개의 개별 연산을 하나의 GPU 커널로 결합하여 실행하는 최적화 방식이다. GPU 메모리와 프로세서 간의 데이터 이동 횟수를 줄여 오버헤드를 최소화하고 연산 효율을 높이는 데 핵심적인 역할을 한다.
코드 한 줄로 H100 학습 속도 59% 향상시키는 방법
코드 한 줄로 H100 학습 속도 59% 끌어올리는 비결