KernelEvolve: Meta의 이기종 AI 가속기를 위한 자율 커널 최적화 에이전트

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

KernelEvolve는 Meta의 복잡한 이기종 하드웨어 인프라에서 AI 모델의 실행 효율을 극대화하기 위해 개발된 자율 커널 저작 시스템이다. 하드웨어 종류, 모델 아키텍처, 커스텀 연산자의 조합으로 인해 폭증하는 커널 최적화 수요를 해결하기 위해 LLM 기반의 구조화된 탐색 알고리즘을 도입했다. 이 시스템은 Triton, CUDA 등 다양한 언어로 커널 후보를 생성하고 실제 하드웨어에서 성능을 평가한 뒤 그 피드백을 다시 모델에 전달하는 폐쇄 루프 방식으로 작동한다. 실제 적용 결과 NVIDIA GPU에서 추론 처리량을 60% 향상시키고 전문가가 수주간 작업할 분량을 단 몇 시간으로 단축하는 성과를 거두었다.

배경

GPU 아키텍처 및 커널 최적화 기초 지식, LLM 에이전트 및 RAG 아키텍처에 대한 이해, Triton 또는 CUDA 프로그래밍 경험

대상 독자

AI 인프라 엔지니어 및 하드웨어 가속기 최적화 개발자

의미 / 영향

KernelEvolve는 하드웨어와 소프트웨어의 결합을 자동화하여 새로운 칩 도입 시 발생하는 막대한 엔지니어링 비용을 절감합니다. 특히 독자적인 AI 가속기를 개발하는 기업들이 소프트웨어 생태계를 빠르게 구축하는 데 핵심적인 역할을 할 것으로 보입니다.

섹션별 상세

하드웨어 종류와 모델 아키텍처가 급증하면서 최적화해야 할 커널 조합이 기하급수적으로 늘어나 수동 튜닝이 한계에 도달했다. 기존 방식으로는 수천 개의 커널 구성을 유지보수하는 것이 불가능하며 이는 하드웨어 도입 지연의 주요 원인이 된다. KernelEvolve는 이러한 병목 현상을 해결하기 위해 커널 개발 프로세스를 자동화된 탐색 체계로 전환했다.

LLM Synthesizer는 Triton, CUDA, MTIA C++ 등 다양한 언어로 커널 후보를 생성하며 런타임 진단 정보를 프롬프트에 동적으로 반영한다. 단순한 일회성 생성이 아니라 하드웨어 제약 조건과 이전 평가 결과를 학습하여 점진적으로 성능을 개선하는 적응형 인터페이스를 사용한다. 이를 통해 별도의 플랫폼별 템플릿 없이도 통합된 최적화 루프를 구현했다.

KernelEvolve의 전체 시스템 아키텍처 다이어그램 — DiagramUI에서 시작하여 태스크 설명, 트리 탐색(Outer Loop), LLM 백엔드, 하드웨어 평가(Inner Loop)로 이어지는 전체 워크플로우를 보여줍니다. 지식 베이스와 데이터 파운데이션이 각 단계에 어떻게 정보를 공급하고 수집하는지 시각화하고 있습니다.

Tree Search Engine은 몬테카를로 트리 탐색(MCTS)과 진화 전략을 결합하여 최적의 구현체를 찾아낸다. 각 커널 후보는 탐색 트리의 노드가 되며 성공적인 최적화 경로는 보존하고 정체된 경로는 과감히 버리는 방식으로 탐색 효율을 높였다. 노드 간의 메모리 공유 메커니즘을 통해 형제 노드끼리 전략을 보완하거나 부모의 최적화 궤적을 계승할 수 있다.

커널 최적화 탐색 과정을 보여주는 탐색 그래프 — Chart몬테카를로 트리 탐색을 통해 생성된 각 노드(커널 후보)의 성능 점수와 상태(Improved, Buggy, Best 등)를 시각화합니다. 상위 5개 단계의 성능 수치를 통해 시스템이 어떻게 최적의 커널을 찾아가는지 증명합니다.

RAG 기반 지식 베이스는 LLM이 학습하지 않은 독자적인 하드웨어 아키텍처에 대한 정보를 실시간으로 주입한다. Meta의 자체 칩인 MTIA와 같은 폐쇄형 하드웨어의 매뉴얼과 최적화 패턴을 검색하여 생성 맥락에 포함시킨다. 탐색 성공 사례는 다시 지식 베이스에 기술 형태로 저장되어 향후 유사한 작업의 탐색 단계를 획기적으로 줄여준다.

자동화된 평가 프레임워크는 생성된 커널의 수치적 정확성과 하드웨어 활용도를 정밀하게 측정한다. TritonBench와 PyTorch Profiler 등을 활용해 단순 실행 속도뿐만 아니라 메모리 대역폭, 점유율, 파이프라인 동작 등 심층적인 하드웨어 지표를 수집한다. 이 분석 리포트는 다시 LLM에 전달되어 병목 지점을 파악하고 다음 세대의 커널 후보를 개선하는 근거로 활용된다.

탐색 과정에서 생성된 고품질 데이터를 활용해 더 작고 효율적인 전용 모델을 학습시키는 에이전틱 강화학습을 적용했다. 커널 성능 측정값을 직접적인 보상 신호로 사용하여 모델이 최적화 직관을 학습하도록 유도한다. 이 선순환 구조를 통해 거대 모델의 성능을 유지하면서도 더 적은 비용으로 실행 가능한 경량화된 최적화 모델을 자가 호스팅할 수 있게 됐다.

실무 Takeaway

이기종 하드웨어 환경에서 커널 최적화를 자동화하면 전문가의 수주 작업 분량을 단 몇 시간으로 단축하여 모델 배포 주기를 획기적으로 가속화할 수 있다.
RAG 기술을 활용해 하드웨어 문서를 실시간 주입함으로써 학습 데이터가 부족한 신규 또는 독자적 가속기(MTIA 등)에 대한 최적화 코드를 효과적으로 생성할 수 있다.
커널 성능 지표를 보상 신호로 사용하는 에이전틱 강화학습을 통해 더 작고 효율적인 전용 모델을 구축하고 인프라 운영 비용을 절감하는 선순환 구조를 만들 수 있다.

언급된 리소스

논문KernelEvolve: Scaling Agentic Kernel Coding for Heterogeneous AI Accelerators at Meta