Together AI 커널 랩: 하드웨어와 AI 모델 사이의 간극을 좁히는 기술

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

Together AI는 하드웨어의 잠재력을 온전히 끌어내기 위해 수학적 연산을 실리콘 지침으로 번역하는 커널 최적화에 집중하고 있다. FlashAttention 개발진을 주축으로 구성된 커널 랩은 GPU 메모리 계층 구조와 데이터 흐름을 분석하여 기존 cuBLAS 대비 2배 이상의 성능 향상을 달성했다. 특히 Blackwell GPU 출시 직후 ThunderKittens 라이브러리를 활용해 단 일주일 만에 최적화된 FP4/FP8 GEMM 커널을 구축하는 성과를 보였다. 이러한 기술력은 Together Megakernel을 통해 실제 고객사의 음성 에이전트 지연 시간을 281ms에서 77ms로 단축하며 실질적인 비즈니스 가치로 이어지고 있다.

배경

GPU 아키텍처(HBM, SRAM, Tensor Cores)에 대한 기본 이해, CUDA 프로그래밍 및 커널 최적화 개념, Transformer 모델의 어텐션 메커니즘

대상 독자

LLM 추론 성능 최적화와 인프라 효율성을 고민하는 AI 엔지니어 및 시스템 연구자

의미 / 영향

이 기술은 LLM 서비스의 지연 시간을 획기적으로 낮추어 실시간 대화형 AI의 사용자 경험을 개선합니다. 특히 커널 최적화를 통한 하드웨어 효율 극대화는 대규모 배포 환경에서 수백만 달러의 컴퓨팅 비용 절감으로 이어질 수 있습니다.

섹션별 상세

AI 모델의 수학적 연산과 실제 하드웨어 실행 사이의 거대한 간극이 성능의 병목 구간으로 작용하고 있다. 커널은 GPU에 데이터를 이동하고 계산하는 방식을 지시하는 소프트웨어 계층으로, 이를 최적화해야 하드웨어의 유휴 상태를 방지하고 전체 성능을 확보할 수 있다. 최적화되지 않은 인프라는 AI 네이티브 앱의 응답성을 저해하고 추론 비용을 불필요하게 높이는 원인이 된다.

FlashAttention 팀은 기존의 희소성이나 저순위 방식 대신 GPU 메모리 이동 패턴을 이해하는 시스템적 접근을 선택했다. 데이터 지역성과 메모리 계층 구조라는 데이터베이스 시스템 원칙을 어텐션 연산에 적용하여 2-3배의 속도 향상을 이뤄냈다. 이 연구는 현재 Together AI 커널 연구팀의 기반이 되었으며 AI 네이티브 클라우드의 핵심 구성 요소로 자리 잡았다.

FlashAttention의 IO 인식 알고리즘과 GPU 메모리 계층 구조를 설명하는 다이어그램입니다. — DiagramGPU의 HBM과 SRAM 사이의 데이터 읽기/쓰기를 줄이기 위해 타일링 기법을 사용하는 원리를 보여줍니다. PyTorch 표준 구현 대비 FlashAttention이 GPT-2에서 약 7.6배의 속도 향상을 달성했음을 차트로 증명합니다.

새로운 하드웨어인 NVIDIA Blackwell GPU의 성능을 빠르게 확보하기 위해 ThunderKittens 라이브러리가 활용됐다. ThunderKittens는 텐서 코어 중심의 추상화를 제공하여 기존 1,000줄 이상의 CUDA 코드를 100-200줄로 단축하며 개발 속도를 높인다. 이를 통해 하드웨어 접근 일주일 만에 cuBLAS 대비 최대 2배 빠른 FP4 및 FP8 GEMM 커널을 구현하는 데 성공했다.

Blackwell B200 GPU에서 ThunderKittens와 cuBLAS의 FP8 GEMM 성능을 비교한 바 차트입니다. — Chart다양한 GEMM 형상(Shape)에서 ThunderKittens가 cuBLAS B200 및 H100 대비 높은 TELOPs 성능을 기록하고 있음을 보여줍니다. 특히 Llama 모델 관련 형상에서 높은 효율성을 입증합니다.

Together Megakernel은 전체 모델을 단일 커널에서 실행하여 NVIDIA H100의 HBM 대역폭 한계까지 성능을 밀어붙인다. 실시간 음성 에이전트 서비스에 적용한 결과, Llama-3.2-1B 모델의 첫 64토큰 생성 시간을 281ms에서 77ms로 3.6배 단축했다. 이는 단순한 속도 향상을 넘어 단위 경제성을 7.2배 개선하여 실질적인 서비스 운영 비용을 절감하는 효과를 가져왔다.

Together Megakernel 적용 전후의 첫 64토큰 생성 시간(TTFT) 비교 차트입니다. — ChartLlama-1B 모델에서 기존 B200 베이스라인(281ms) 대비 Together Megakernel(H100)이 77ms로 대폭 단축되었음을 보여줍니다. Qwen 2.5 모델에서도 유사한 성능 향상 폭을 시각화하고 있습니다.

실무 Takeaway

하드웨어 가속기의 성능을 100% 활용하기 위해서는 모델 아키텍처에 최적화된 커널 수준의 하드웨어-소프트웨어 공동 설계가 필수적이다.
ThunderKittens와 같은 추상화 도구를 활용하면 새로운 GPU 아키텍처(Blackwell 등)에 대한 최적화 커널 개발 기간을 수개월에서 수일 단위로 단축할 수 있다.
실시간 응답이 중요한 음성 AI나 코드 완성 서비스에서는 Megakernel 최적화를 통해 지연 시간을 70% 이상 줄이고 운영 효율을 극대화할 수 있다.

언급된 리소스

논문FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness