인텔과 삼바노바, 에이전트형 AI를 위한 새로운 이종 추론 아키텍처 발표

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

인텔과 삼바노바는 에이전트형 AI가 실험 단계에서 운영 단계로 전환됨에 따라 발생하는 GPU 전용 아키텍처의 한계를 극복하기 위해 새로운 협력 설계를 발표했다. 이 설계는 연산 집약적인 프리필 단계에는 GPU를, 고처리량이 필요한 디코드 단계에는 삼바노바의 RDU를, 그리고 시스템 제어 및 액션 수행에는 인텔 Xeon 6 프로세서를 활용하는 이종 구성을 채택했다. 이를 통해 기업들은 기존 x86 소프트웨어 생태계와의 호환성을 유지하면서도 AI 추론의 성능과 비용 효율성을 동시에 확보할 수 있다. 해당 솔루션은 2026년 하반기에 기업 및 클라우드 플랫폼을 대상으로 출시될 예정이다.

배경

LLM 추론의 Prefill 및 Decode 단계에 대한 이해, x86 기반 데이터 센터 아키텍처 지식, 에이전트형 AI(Agentic AI)의 기본 개념

대상 독자

데이터 센터 인프라 설계자 및 엔터프라이즈 AI 서비스 운영 개발자

의미 / 영향

이 협력은 엔비디아 GPU 중심의 추론 시장에 새로운 대안을 제시하며, 특히 에이전트형 AI처럼 복잡한 워크로드에서 하드웨어 분업화가 필수적임을 시사합니다. x86 생태계의 강점을 가진 인텔과 특화 가속기를 가진 삼바노바의 결합은 기업용 AI 시장의 하드웨어 선택지를 넓힐 것입니다.

섹션별 상세

에이전트형 AI 워크로드의 확산으로 인해 기존 GPU 단일 추론 방식이 성능과 효율성 측면에서 한계에 직면했다. 인텔과 삼바노바는 이를 해결하기 위해 각 추론 단계에 최적화된 하드웨어를 배치하는 새로운 블루프린트를 설계했다. GPU는 대규모 입력을 처리하는 프리필 단계에 집중하고 RDU는 반복적인 토큰 생성을 담당하여 병목 현상을 해소한다. 이 구조는 복잡한 추론 루프가 발생하는 에이전트 환경에서 전체 시스템의 처리량을 획기적으로 높인다.

인텔 Xeon 6 프로세서는 시스템의 호스트이자 실제 작업을 수행하는 액션 CPU로서 핵심적인 역할을 수행한다. 데이터 센터의 성숙한 x86 소프트웨어 생태계를 그대로 활용할 수 있어 개발자와 기업의 도입 장벽을 낮춘다. 오케스트레이션과 보안 기능을 담당하며 GPU 및 RDU와 협력하여 전체 AI 인프라의 안정성을 보장한다. 이는 하드웨어 가속기만으로는 해결하기 어려운 시스템 수준의 제어 문제를 해결한다.

삼바노바의 RDU 기술은 LLM 추론의 디코드 단계에서 발생하는 메모리 대역폭 문제를 해결하여 높은 처리량을 제공한다. GPU가 프리필에서 생성한 KV 캐시를 이어받아 효율적으로 토큰을 생성함으로써 전체 추론 비용을 절감한다. 이종 설계 방식은 특정 하드웨어에 대한 의존도를 낮추고 작업 특성에 맞는 최적의 컴퓨팅 자원을 할당한다. 결과적으로 클라우드 제공업체와 기업은 더 낮은 TCO로 고성능 AI 서비스를 운영할 수 있다.

실무 Takeaway

에이전트형 AI 프로덕션 환경 구축 시 GPU 단일 구성 대신 GPU(프리필), RDU(디코드), Xeon(호스트)을 조합한 이종 아키텍처를 통해 처리량과 비용 효율을 동시에 개선할 수 있다.
기존 x86 기반 데이터 센터 인프라를 보유한 기업은 Xeon 6를 호스트 CPU로 활용함으로써 소프트웨어 호환성 문제 없이 최신 AI 가속기를 통합할 수 있다.
2026년 하반기 출시 예정인 이 솔루션을 통해 소버린 AI(Sovereign AI) 및 엔터프라이즈 클라우드 환경에서 고성능 추론 인프라를 확보할 수 있다.

언급된 리소스

문서Intel Newsroom - More details