kernel
GPU와 같은 가속기에서 실행되는 가장 작은 단위의 연산 프로그램이다. 행렬 곱셈 등 특정 수학적 연산을 하드웨어에 최적화하여 실행하도록 설계되며 AI 모델의 전체 성능을 결정짓는 핵심 요소이다.
메타의 AI 커널 자동 설계로 성능 17배 향상, 분산 학습은 매년 20배 성장 중
AI 성능 10배 더 높일 수 있다? 하드웨어 한계론에 대한 반박