Together AI, 주요 오픈소스 모델 추론 속도 1위 달성

핵심 요약

Together AI는 최신 GPU 하드웨어 최적화와 고급 추론 기법을 결합하여 오픈소스 대형 언어 모델(LLM)의 추론 속도를 획기적으로 개선했다. NVIDIA Blackwell 아키텍처에 최적화된 커널과 FP4 등 저정밀도 양자화 기술을 도입하여 성능을 극대화했다. 특히 독자적으로 학습시킨 드래프트 모델을 활용한 투기적 디코딩(Speculative Decoding) 기술을 통해 기존 대비 최대 2배 빠른 추론 속도를 구현했다. 이러한 성과는 GPT-OSS, Qwen3, DeepSeek-R1 등 주요 모델 벤치마크에서 업계 최고 수준의 성능으로 입증되었다.

배경

LLM 추론 아키텍처에 대한 이해, GPU 커널 최적화 및 양자화(Quantization) 개념, 투기적 디코딩(Speculative Decoding) 메커니즘

대상 독자

LLM 인프라 엔지니어 및 고성능 추론 시스템 개발자

의미 / 영향

Together AI의 이번 성과는 오픈소스 모델이 상용 폐쇄형 모델 대비 가졌던 추론 효율성 격차를 크게 줄였습니다. 특히 Blackwell 아키텍처를 선제적으로 최적화함으로써 기업들이 대규모 모델을 더 낮은 비용과 빠른 속도로 프로덕션에 도입할 수 있는 기술적 토대를 마련했습니다.

섹션별 상세

NVIDIA Blackwell 아키텍처에 최적화된 차세대 추론 엔진을 구축했습니다. 단순한 레이어 최적화를 넘어 연산 커널, 메모리 레이아웃, 실행 그래프 및 스케줄링을 통합 시스템으로 재설계했습니다. 특히 FlashAttention-4와 융합된 MoE(Mixture of Experts) 커널을 통해 하드웨어 대역폭을 최대한 활용하며 처리량을 대폭 향상했습니다.

FP8 및 FP4 저비용 양자화 형식을 도입하여 모델 가중치를 압축하면서도 성능 손실을 최소화했습니다. 아키텍처 인식 캘리브레이션과 미세 블록 단위 스케일링 기술을 적용하여 극단적인 압축 환경에서도 타겟 모델의 품질을 유지합니다. 이는 Blackwell GPU에 최적화된 메모리 레이아웃과 결합되어 정확도 저하 없이 지연 시간을 단축하는 기반이 됩니다.

프로덕션 환경에 적합한 고성능 투기적 디코딩(Speculative Decoding) 알고리즘을 구현했습니다. 각 타겟 모델에 최적화된 고정밀 드래프트 모델을 직접 학습시켜 적용했으며, 데이터 도메인에 관계없이 일관된 속도 향상을 보장합니다. 적응형 수락 전략(Adaptive Acceptance Strategy)을 통해 출력 품질을 보존하면서도 Kimi나 Qwen3 모델에서 최대 2배의 속도 향상을 달성했습니다.

1조 개 이상의 파라미터를 가진 초대형 모델까지 지원하는 확장 가능한 드래프트 모델 학습 파이프라인을 구축했습니다. 커리큘럼 기반 학습과 데이터 믹싱 전략을 통해 드래프트 모델이 타겟 모델의 스타일과 구조적 출력을 정확히 모방하도록 설계했습니다. 이를 통해 기존에 제공되지 않던 모델들에 대해서도 세계 최고 수준의 추론 속도를 제공할 수 있게 되었습니다.