핵심 요약
Together AI는 최신 GPU 하드웨어 최적화와 고급 추론 기법을 결합하여 오픈소스 대형 언어 모델(LLM)의 추론 속도를 획기적으로 개선했다. NVIDIA Blackwell 아키텍처에 최적화된 커널과 FP4 등 저정밀도 양자화 기술을 도입하여 성능을 극대화했다. 특히 독자적으로 학습시킨 드래프트 모델을 활용한 투기적 디코딩(Speculative Decoding) 기술을 통해 기존 대비 최대 2배 빠른 추론 속도를 구현했다. 이러한 성과는 GPT-OSS, Qwen3, DeepSeek-R1 등 주요 모델 벤치마크에서 업계 최고 수준의 성능으로 입증되었다.
배경
LLM 추론 아키텍처에 대한 이해, GPU 커널 최적화 및 양자화(Quantization) 개념, 투기적 디코딩(Speculative Decoding) 메커니즘
대상 독자
LLM 인프라 엔지니어 및 고성능 추론 시스템 개발자
의미 / 영향
Together AI의 이번 성과는 오픈소스 모델이 상용 폐쇄형 모델 대비 가졌던 추론 효율성 격차를 크게 줄였습니다. 특히 Blackwell 아키텍처를 선제적으로 최적화함으로써 기업들이 대규모 모델을 더 낮은 비용과 빠른 속도로 프로덕션에 도입할 수 있는 기술적 토대를 마련했습니다.
섹션별 상세
이미지 분석
%2520%2520(1).png)
Together.ai가 892 TPS를 기록하며 2위인 Google Vertex(456 TPS) 대비 약 2배 빠른 속도를 보여줍니다. 1,000개 입력 토큰 기준의 벤치마크 결과입니다.
gpt-oss-20B 모델의 제공업체별 출력 속도 비교 차트
%2520%2520(3).png)
Together.ai(FP8)가 254 TPS로 압도적 1위를 차지했으며, 이는 2위인 Amazon(92 TPS)보다 약 2.75배 빠른 수치입니다.
Qwen3 235B 모델의 제공업체별 출력 속도 비교 차트
%2520.png)
Together.ai가 314 TPS로 1위를 기록했으며, Nebius Fast(276 TPS)와 Fireworks Fast(256 TPS)가 그 뒤를 잇고 있습니다.
DeepSeek R1 모델의 제공업체별 출력 속도 비교 차트
실무 Takeaway
- NVIDIA Blackwell 하드웨어와 소프트웨어 스택의 밀접한 통합을 통해 오픈소스 LLM 추론 효율을 극대화할 수 있습니다.
- 자체 학습된 드래프트 모델 기반의 투기적 디코딩은 대규모 모델의 실시간 서비스 지연 시간을 50% 이상 단축하는 핵심 기술입니다.
- FP4와 같은 초저비용 양자화 기술을 활용하면 모델 정확도를 유지하면서도 운영 비용과 처리 속도를 동시에 최적화할 수 있습니다.
언급된 리소스
AI 요약 · 북마크 · 개인 피드 설정 — 무료