마이크로소프트, 차세대 AI 추론 전용 칩 '마야 200' 공개

핵심 요약

마이크로소프트는 마야 200을 통해 엔비디아에 대한 하드웨어 의존도를 낮추고, 자사 데이터 센터 환경에 최적화된 맞춤형 실리콘을 통해 AI 추론 비용을 획기적으로 절감하고자 한다. 이는 구글과 아마존에 이어 클라우드 거대 기업들이 하드웨어 수직 계열화를 완성해가는 흐름의 일환이다.

배경

마이크로소프트가 2023년 발표한 마야 100의 후속작인 차세대 AI 가속기 마야 200을 공개했다.

대상 독자

AI 인프라 및 클라우드 컴퓨팅 효율성에 관심 있는 기술 결정권자 및 개발자

의미 / 영향

마이크로소프트의 마야 200 공개는 클라우드 시장의 경쟁이 단순한 소프트웨어 서비스를 넘어 하드웨어 최적화 단계로 진입했음을 시사한다. 자체 칩을 보유한 클라우드 제공업체는 비용 구조에서 우위를 점하게 되며, 이는 장기적으로 AI 서비스의 가격 경쟁력과 수익성 차이로 나타날 것이다.

섹션별 상세

01:30

마야 200의 주요 사양과 성능

마야 200은 1,000억 개 이상의 트랜지스터를 탑재한 마이크로소프트의 차세대 AI 가속기이다. 4비트 정밀도에서 최대 10 페타플롭스(Petaflops), 8비트 정밀도에서 5 페타플롭스의 성능을 제공하며 이는 이전 세대보다 대폭 향상된 수치이다. 대규모 언어 모델(LLM)을 실제 서비스 환경에서 효율적으로 실행하는 데 최적화된 설계를 갖췄다.

•1,000억 개 이상의 트랜지스터 탑재
•4비트 정밀도 기준 10 페타플롭스 성능 달성
•대규모 언어 모델의 프로덕션 추론에 특화

페타플롭스(Petaflops)는 초당 1,000조 번의 부동소수점 연산을 수행할 수 있는 능력을 의미하며, AI 칩의 연산 속도를 측정하는 핵심 지표이다.

03:00

추론 비용 최적화의 중요성

AI 모델 학습보다 실제 사용자의 요청을 처리하는 추론 단계가 기업들에게 더 큰 비용 부담이 되고 있다. 챗GPT나 코파일럿처럼 수백만 명의 사용자가 매일 이용하는 서비스에서는 아주 작은 칩 단위의 효율 개선도 클라우드 규모에서는 막대한 비용 절감으로 이어진다. 마이크로소프트는 이러한 추론 비용을 통제하기 위해 자체 칩 개발에 집중했다.

•학습보다 추론 단계가 AI 기업의 주요 비용 센터로 부상
•수백만 사용자 대응을 위한 클라우드 규모의 효율성 필요
•칩 수준의 미세한 효율 향상이 대규모 비용 절감으로 직결

06:30

수직 계열화를 통한 데이터 센터 효율 극대화

기성품 GPU를 구매하는 대신 자체 실리콘을 설계함으로써 마이크로소프트는 자사 데이터 센터의 냉각 시스템과 소프트웨어 프레임워크에 칩을 완벽히 맞춤화했다. 이는 엔비디아 칩의 높은 가격과 공급 부족 문제를 해결하는 동시에 전력 소비 효율을 극대화하는 전략이다. 구글의 TPU나 아마존의 인퍼런시아와 경쟁할 수 있는 수준의 하드웨어 역량을 확보했다.

•데이터 센터 냉각 및 소프트웨어 구조에 최적화된 맞춤형 설계
•엔비디아 의존도 탈피 및 공급망 리스크 관리
•구글 및 아마존의 자체 칩 전략과 궤를 같이하는 행보

수직 계열화는 기업이 제품 생산에 필요한 하드웨어부터 소프트웨어까지 전 과정을 직접 통제하여 최적의 성능을 끌어내는 전략을 뜻한다.

08:30

내부 검증 및 향후 배포 계획

마야 200은 이미 마이크로소프트 내부의 코파일럿(Copilot) 서비스와 오픈AI(OpenAI) 모델 구동에 투입되어 성능과 신뢰성을 검증받고 있다. 이번 주부터 내부 개발자와 일부 연구 파트너들에게 소프트웨어 개발 키트(SDK)와 함께 실험 기회가 제공되기 시작했다. 내부 검증을 마친 후 애저(Azure) 클라우드 고객들에게 정식 서비스로 확장될 예정이다.

•코파일럿 및 오픈AI 모델을 통한 내부 실무 검증 완료
•내부 개발자 및 연구진 대상 SDK 배포 시작
•애저 클라우드 생태계의 핵심 컴퓨팅 옵션으로 자리매김할 전망

용어 해설

Inference (추론): — 학습된 AI 모델을 사용하여 실제 입력 데이터에 대한 결과물(텍스트, 이미지 등)을 생성하는 과정이다.
Custom Silicon (맞춤형 실리콘): — 범용 칩이 아니라 특정 소프트웨어나 데이터 센터 환경에 최적화하여 기업이 직접 설계한 전용 반도체이다.

주목할 인용

“추론은 조용히 많은 AI 기업들의 주요 비용 센터가 되고 있습니다. 모델이 수백만 명의 사용자에게 배포됨에 따라 모든 쿼리와 자동 완성은 컴퓨팅 파워와 냉각 비용을 소모하기 때문입니다.”
Jaden Shaefer·03:50
왜 마이크로소프트가 학습용 칩보다 추론용 칩인 마야 200에 집중하는지 설명하며

“마야 200은 단순히 벤치마크 전쟁에서 이기기 위한 것이 아니라, 추론 워크로드가 계속 확장되고 마진이 줄어드는 상황에서 장기적인 레버리지를 확보하기 위한 것입니다.”
Jaden Shaefer·10:15
자체 칩 개발이 갖는 전략적 우위와 비즈니스적 가치를 요약하며

실무 Takeaway

AI 서비스의 경제성은 학습 효율보다 대규모 사용자 요청을 처리하는 추론 효율에서 결정된다.
빅테크 기업들은 엔비디아 의존도를 낮추기 위해 하드웨어 수직 계열화를 가속화하고 있다.
자체 칩 설계는 전력 소비와 냉각 등 데이터 센터 운영 비용을 획기적으로 줄일 수 있는 핵심 수단이다.