MLPerf Inference v6.0 벤치마크에서 Intel Xeon 6 및 Arc Pro B-시리즈 GPU의 강력한 AI 추론 성능 입증

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

Intel은 MLCommons가 발표한 MLPerf Inference v6.0 벤치마크에서 Intel Xeon 6 프로세서와 Intel Arc Pro B-시리즈 GPU의 성능 결과를 공개했다. 이번 벤치마크는 고성능 워크스테이션, 데이터 센터 및 엣지 애플리케이션을 위한 저지연 AI 추론 솔루션으로서의 경쟁력을 입증하는 데 중점을 두었다. Intel Arc Pro B70은 이전 세대인 B60 대비 최대 1.8배 향상된 추론 성능을 기록했으며, 4개의 GPU를 구성할 경우 128GB의 VRAM을 확보해 1,200억 개 파라미터 규모의 대형 모델을 높은 동시성으로 실행할 수 있다. 또한 Xeon 6 프로세서는 AMX 및 AVX512와 같은 내장 AI 가속 기술을 통해 별도의 가속기 없이도 효율적인 LLM 추론과 파인튜닝이 가능함을 보여주었다.

배경

AI 추론 및 벤치마크 지표에 대한 기본 이해, Intel Xeon 및 Arc GPU 하드웨어 아키텍처 지식, 리눅스 기반 컨테이너화된 소프트웨어 스택 운영 경험

대상 독자

고성능 워크스테이션 및 엣지 AI 인프라를 구축하려는 개발자 및 시스템 아키텍트

의미 / 영향

이번 벤치마크 결과는 Intel이 고가의 전용 가속기 없이도 CPU와 메인스트림 GPU의 조합으로 대규모 언어 모델(LLM) 추론이 가능함을 입증한 사례이다. 이는 기업들이 기존 인프라를 활용하거나 상대적으로 저렴한 워크스테이션 급 하드웨어로 AI 서비스를 구축할 수 있게 하여 AI 도입 장벽을 낮추는 효과를 가져올 것이다.

섹션별 상세

Intel Arc Pro B70은 MLPerf v6.0 벤치마크에서 이전 세대인 B60 대비 최대 1.8배의 성능 향상을 기록했다. 하드웨어 아키텍처의 진화와 더불어 최적화된 소프트웨어 스택이 결합되어 전문 그래픽 작업과 AI 개발자에게 높은 가치를 제공한다. 이러한 성능 향상은 고성능 워크스테이션 환경에서 복잡한 AI 워크로드를 더 빠르게 처리할 수 있게 한다.

Intel Arc Pro B70 그래픽 카드의 외형 렌더링 이미지이다. — Photo벤치마크의 핵심 하드웨어인 Arc Pro B70의 실물 디자인을 보여준다. 싱글 슬롯 형태의 블로워 팬 디자인을 채택하여 워크스테이션 및 서버 환경에서의 멀티 GPU 구성을 용이하게 함을 시사한다.

4개의 Intel Arc Pro B70/B65 GPU를 장착한 시스템은 총 128GB의 VRAM을 제공하여 1,200억(120B) 개의 파라미터를 가진 대규모 언어 모델을 원활하게 구동한다. 높은 메모리 용량 덕분에 대규모 모델에서도 높은 동시성을 유지하며 추론 작업을 수행할 수 있는 환경이 마련됐다. 이는 데이터 프라이버시를 유지하면서도 고성능 AI 모델을 로컬 환경에서 운영하려는 기업에게 적합한 솔루션이다.

동일한 하드웨어인 Intel Arc Pro B60에서도 소프트웨어 최적화만으로 MLPerf v5.1 대비 최대 1.18배의 성능 향상을 이끌어냈다. Intel은 컨테이너화된 오픈 소프트웨어 스택을 통해 하드웨어의 잠재력을 최대한 끌어올리는 전략을 취하고 있다. 이는 사용자가 하드웨어 교체 없이도 최신 소프트웨어 업데이트만으로 실질적인 성능 이득을 얻을 수 있음을 의미한다.

Intel Xeon 6 프로세서는 MLPerf 6.0 제출물의 절반 이상에서 호스트 CPU로 사용되며 AI 인프라의 핵심 역할을 수행하고 있다. P-코어를 탑재한 Xeon 6는 이전 세대 대비 최대 1.9배의 성능 향상을 보였으며, AMX 및 AVX512 기술을 통해 별도 가속기 없이도 LLM 추론을 지원한다. 이는 서버 인프라의 총 소유 비용(TCO)을 절감하면서도 강력한 AI 성능을 확보할 수 있는 기반이 된다.

Intel Xeon 6 프로세서의 실제 모습이다. — PhotoAI 추론 인프라의 핵심 호스트 CPU인 Xeon 6의 외형을 보여준다. 내장된 AMX 가속 기술을 통해 별도 가속기 없이도 강력한 AI 성능을 제공하는 주체임을 강조한다.

멀티 GPU 설정에서 Intel Arc Pro B70은 경쟁사 솔루션 대비 최대 1.6배 더 큰 KV 캐시 용량을 확보할 수 있다. KV 캐시 용량의 증가는 더 긴 컨텍스트 윈도우를 처리하거나 더 큰 모델을 실행할 때 시스템의 병목 현상을 줄이는 핵심 요소이다. 이를 통해 복잡한 RAG 시스템이나 긴 대화 맥락이 필요한 AI 서비스에서 더 높은 처리량을 기대할 수 있다.

이미지 분석

Photo
엣지 및 임베디드 환경을 위한 Intel의 하드웨어 리더십을 상징적으로 보여준다. 기사에서 언급된 엣지 시스템용 AI 추론 솔루션의 실제 적용 가능성을 시각화한다.
Intel의 Dan Rodriguez가 임베디드 월드 2026에서 프로세서를 들고 있는 모습이다.

실무 Takeaway

Intel Arc Pro B70 시스템은 128GB VRAM을 통해 120B 파라미터 모델을 워크스테이션 급에서 구동할 수 있는 경제적인 AI 추론 대안을 제시한다.
Intel Xeon 6의 AMX 가속 기능을 활용하면 별도의 고가 GPU 도입 없이도 기존 서버 인프라에서 LLM 추론 및 파인튜닝 워크로드를 효율적으로 처리할 수 있다.
컨테이너화된 오픈 소프트웨어 스택을 적용하여 단일 노드에서 멀티 GPU 환경까지 성능을 효율적으로 확장하고 배포 복잡성을 낮출 수 있다.

언급된 리소스

문서MLPerf Inference v6.0 Results

문서Intel Performance Index