핵심 요약
GPU 커널 최적화(GPU kernel optimization)는 현대 딥러닝의 기초이지만, 고도의 하드웨어 전문 지식이 필요한 매우 전문적인 작업입니다. 일반적인 프로그래밍에서의 강력한 성능에도 불구하고, 대형 언어 모델(LLM)은 CUDA 커널 생성 분야에서 torch.compile과 같은 컴파일러 기반 시스템에 비해 여전히 경쟁력이 낮습니다. 기존의 CUDA 코드 생성 방식은 학습이 필요 없는 정제(refinement) 방식에 의존하거나 고정된 다회차 실행-피드백 루프 내에서 모델을 미세 조정(fine-tuning)하지만, 두 패러다임 모두 모델의 본질적인 CUDA 최적화 능력을 근본적으로 개선하는 데 실패하여 성능 향상이 제한적이었습니다. 본 논문에서는 세 가지 구성 요소를 통해 CUDA 커널 전문성을 개발하는 대규모 에이전트 기반 강화학습(Agentic Reinforcement Learning) 시스템인 CUDA 에이전트(CUDA Agent)를 소개합니다. 이는 확장 가능한 데이터 합성 파이프라인, 신뢰할 수 있는 보상 신호를 제공하기 위해 자동화된 검증(Verification) 및 프로파일링(Profiling) 기능을 갖춘 기술 증강 CUDA 개발 환경, 그리고 안정적인 학습을 가능하게 하는 강화학습 알고리즘 기술로 구성됩니다. CUDA 에이전트는 KernelBench에서 최첨단(SOTA) 결과를 달성했으며, KernelBench 레벨 1, 레벨 2에서 100%, 레벨 3 분할에서 torch.compile 대비 92% 더 빠른 속도를 기록했습니다. 또한 가장 어려운 레벨 3 설정에서 Claude Opus 4.5 및 Gemini 3 Pro와 같은 강력한 상용 모델을 약 40% 차이로 능가했습니다.
핵심 기여
대규모 에이전트 기반 강화학습 프레임워크
CUDA 커널 최적화 능력을 모델에 내재화하기 위해 에이전트 환경에서의 피드백을 활용한 대규모 강화학습 시스템을 구축했습니다.
기술 증강 CUDA 개발 환경 구축
자동화된 코드 검증 및 프로파일링 기능을 통합하여 모델에 정확하고 신뢰할 수 있는 보상 신호를 제공하는 환경을 설계했습니다.
확장 가능한 데이터 합성 파이프라인
CUDA 커널 학습에 필요한 고품질 데이터를 대량으로 생성할 수 있는 합성 파이프라인을 개발하여 학습 효율을 극대화했습니다.
방법론
CUDA 에이전트는 에이전트가 코드를 작성하고 실행 결과를 바탕으로 스스로 개선하는 에이전트 기반 강화학습(Agentic RL) 구조를 채택했습니다. 특히 프로파일링 도구를 통해 얻은 하드웨어 성능 지표를 보상 신호로 사용하여 모델이 하드웨어 친화적인 최적화를 학습하도록 유도하며, 안정적인 학습을 위해 특화된 강화학습 알고리즘 기법을 적용했습니다.
주요 결과
KernelBench 벤치마크에서 레벨 1과 레벨 2 작업에 대해 torch.compile 대비 100% 향상된 성능을 보였으며, 레벨 3에서는 92% 더 빠른 실행 속도를 기록했습니다. 또한 Claude Opus 4.5 및 Gemini 3 Pro와 같은 최신 상용 모델과 비교했을 때, 가장 난이도가 높은 레벨 3 설정에서 약 40% 더 높은 성능 우위를 입증했습니다.
시사점
하드웨어 전문가의 수동 최적화 없이도 고성능 CUDA 커널을 자동 생성할 수 있게 되어, 새로운 딥러닝 연산자의 배포 속도를 획기적으로 높일 수 있습니다. 특히 컴파일러 기반 시스템의 한계를 넘어선 최적화가 가능해짐에 따라 AI 인프라의 전반적인 추론 및 학습 효율성이 크게 개선될 것으로 기대됩니다.
키워드
섹션별 상세
대규모 에이전트 기반 강화학습 프레임워크
기술 증강 CUDA 개발 환경 구축
확장 가능한 데이터 합성 파이프라인
AI 요약 · 북마크 · 개인 피드 설정 — 무료