이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.
TL;DR
COMPUTEX에서 SambaNova는 Nvidia B200 GPU와 자사의 SN40 RDU를 결합한 하이브리드 추론 시스템을 선보였다. 이 시스템은 B200을 프리필 단계에, SN40을 디코드 단계에 할당하여 기존 B200 단독 구성보다 2배 빠른 추론 속도를 달성했다. 새로 발표된 VC2 데이터 센터에서 실시간으로 구동되었으며, Together.AI가 첫 번째 상업적 고객으로 참여하여 기술력을 입증했다. 하드웨어 간의 역할 분담을 통해 AI 에이전트 구동에 필요한 프리미엄 추론 성능을 구현한 것이 핵심이다.
챕터별 상세
00:00
하이브리드 추론 아키텍처 공개
COMPUTEX에서 Nvidia B200 GPU와 SambaNova SN40 RDU를 혼합하여 사용하는 새로운 추론 방식을 제안했다. 입력 토큰을 처리하는 프리필 단계는 B200이 담당하고, 이후 토큰을 생성하는 디코드 단계는 SN40이 담당하는 구조이다. 이러한 역할 분담을 통해 AI 에이전트 구동을 위한 최적의 성능을 구현했다.
LLM 추론은 크게 입력 처리(Prefill)와 출력 생성(Decode) 단계로 나뉘며, 각 단계에 최적화된 하드웨어를 배치하는 전략이다.
00:30
성능 벤치마크 및 실전 도입
하이브리드 구성의 추론 속도는 B200 단독 구성 대비 2배 빠른 것으로 확인됐다. 이 시스템은 새로 발표된 VC2(Vector Core Compute) 데이터 센터에서 실시간으로 구동 중이다. Together.AI가 VC2의 추론 기능을 사용하는 첫 번째 상업적 고객으로 참여하여 실제 서비스 적용 가능성을 보여주었다.
Together.AI는 오픈소스 모델을 위한 추론 API를 제공하는 주요 기업 중 하나이다.
언급된 리소스
AI 분석 전체 내용 보기
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
원문 발행 2026. 06. 30.수집 2026. 06. 30.출처 타입 YOUTUBE
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.