워프 디코드
NVIDIA Blackwell GPU 아키텍처에서 MoE 모델의 토큰 생성 속도를 최적화하는 기술이다. 하드웨어의 병렬 처리 능력을 극대화하여 추론 지연 시간을 단축하고 출력 품질을 유지한다. 실시간 응답이 중요한 에이전트 서비스에서 추론 효율성을 높이는 데 필수적인 역할을 한다.