d-Matrix, AI 추론 혁신을 위한 업계 최초 3D DRAM 솔루션 '3DIMC' 및 Pavehawk 칩 공개

핵심 요약

AI 추론의 핵심 병목인 메모리 용량과 대역폭 문제를 해결하기 위해 d-Matrix가 수직 적층 기술인 3DIMC를 도입했다. 기존 SRAM 기반 Corsair 아키텍처의 저지연성을 유지하면서 로직 다이 위에 DRAM을 직접 쌓아 HBM4 대비 10배 높은 20TB/s의 대역폭과 10배 뛰어난 전력 효율을 달성했다. 테스트 칩인 Pavehawk를 통해 기술적 타당성을 입증했으며, 이는 차세대 가속기 Raptor의 핵심 기반이 된다. 대규모 언어 모델과 복잡한 에이전트 파이프라인 처리에 최적화된 하드웨어 솔루션을 지향한다.

배경

SRAM 및 DRAM의 물리적 특성 차이, HBM(High Bandwidth Memory) 아키텍처에 대한 이해, 칩렛(Chiplet) 및 3D 패키징 기술 기초 지식, LLM 추론 시 발생하는 메모리 병목 현상에 대한 이해

대상 독자

AI 인프라 설계자, LLM 추론 최적화 엔지니어, 차세대 반도체 아키텍처 연구원

의미 / 영향

이 기술은 HBM의 물리적 한계를 뛰어넘는 새로운 메모리 아키텍처를 제시하여 LLM 추론 비용을 획기적으로 낮출 수 있습니다. 특히 전력 효율과 대역폭을 동시에 10배 개선함으로써 데이터 센터의 전력 밀도 문제를 해결하고 실시간 상호작용이 필요한 AI 에이전트 서비스의 대중화를 가속화할 것입니다.

섹션별 상세

SRAM 기반 Corsair 아키텍처의 한계를 극복하기 위해 3D 적층 DRAM 구조를 채택했습니다. 초기 d-Matrix는 SRAM을 활용해 소규모 배치 추론에서 초저지연 성능을 확보했으나, 수천억 개의 파라미터를 가진 최신 모델과 복잡한 에이전트 파이프라인을 지원하기 위해 더 큰 메모리 용량이 필요해졌습니다. 이를 위해 로직 다이 위에 DRAM을 수직으로 쌓는 3DIMC 기술을 개발하여 성능과 용량을 동시에 확보했습니다.

3DIMC 기술은 HBM4 대비 대역폭과 에너지 효율성에서 각각 10배의 향상을 달성했습니다. 20TB/s라는 압도적인 대역폭을 제공하면서도 전력 소비는 비트당 0.3~0.4pJ 수준으로 억제했습니다. 이는 기존 HBM4의 3~4pJ/bit와 비교할 때 전력 효율이 10배나 뛰어난 수치로, 대규모 토큰 소비가 발생하는 추론 환경에서 운영 비용을 획기적으로 낮춥니다.

인메모리 컴퓨팅 기술의 3D 시각화 모델입니다. — Diagram칩 내부에서 연산 유닛과 메모리 셀이 밀접하게 결합된 구조를 시각적으로 표현하여 3DIMC의 개념을 전달합니다. 데이터가 메모리 밖으로 나가지 않고 내부에서 즉시 처리되는 방식을 형상화했습니다.

칩렛 기반 설계와 다이 간 상호연결 최적화를 통해 거대한 단일 메모리 풀처럼 작동하게 구현했습니다. SRAM 액세스는 연산 다이 인접부에서 최고 속도로 유지하면서, 칩렛 간 데이터 이동 시 발생하는 대역폭 저하와 지연 시간을 최소화했습니다. 이를 통해 랙 단위까지 확장 가능한 유연한 메모리 아키텍처를 구축했습니다.

테스트 칩인 Pavehawk를 통해 3DIMC 기술의 실질적인 작동을 검증했습니다. 2025년 8월 입고된 Pavehawk 칩을 대상으로 다양한 전압과 온도 범위에서 스트레스 테스트를 수행한 결과, 최악의 시나리오에서도 0.4pJ/bit 이하의 전력 효율을 기록하며 이론적 목표치가 실제 하드웨어에서 구현 가능함을 입증했습니다.

3DIMC의 수직 적층 구조 다이어그램과 실제 Pavehawk One 테스트 칩의 사진입니다. — Diagram로직 다이와 DRAM 다이가 uBump 및 TSV를 통해 수직으로 연결되는 구조를 상세히 보여주며, 이는 데이터 이동 거리를 줄여 대역폭을 극대화하는 핵심 원리입니다. 우측 하단에는 이 기술이 실제로 구현된 Pavehawk One 실물 칩이 포함되어 기술의 실체성을 입증합니다.

이종 추론 파이프라인에서 GPU와 협력하여 최대 10배의 성능 향상을 제공합니다. Gimlet Labs와의 협력 데이터에 따르면, Corsair와 3DIMC 기술을 GPU와 함께 배치할 경우 소규모 배치 추론의 처리량과 상호작용성이 비약적으로 개선됩니다. 이는 대규모 모델의 추론 단계를 분리하여 최적의 하드웨어에 할당하는 분산 추론 전략에 매우 효과적입니다.

GPU 단독 구성과 d-Matrix 가속기 추가 구성 간의 처리량 및 상호작용성 비교 차트입니다. — ChartGPU 단독 구성(파란색)에 비해 d-Matrix 솔루션을 결합한 구성(빨간색)이 전력 대비 처리량(Tok/s/kW)과 사용자당 상호작용 속도(Tok/s/user) 모두에서 압도적인 우위를 점하고 있음을 보여줍니다. 특히 상호작용성이 높아질수록 GPU 단독 구성의 효율이 급격히 떨어지는 반면, d-Matrix는 높은 효율을 유지합니다.

실무 Takeaway

에이전트 파이프라인과 대규모 추론 모델의 메모리 병목을 해결하기 위해 HBM4를 능가하는 20TB/s 대역폭의 3D 적층 DRAM 도입이 필수적이다.
3DIMC 기술을 적용하면 비트당 전력 소비를 0.4pJ 이하로 낮추어 기존 솔루션 대비 전력 효율을 10배 개선하고 운영 비용을 절감할 수 있다.
SRAM의 저지연성과 DRAM의 고용량을 결합한 칩렛 설계는 차세대 AI 가속기 Raptor의 핵심 경쟁력이 되어 분산 추론 성능을 극대화한다.

언급된 리소스

문서Blazing the Trail Toward More Scalable, Affordable AI with 3DIMC

핵심 요약

배경

대상 독자

AI 인프라 설계자, LLM 추론 최적화 엔지니어, 차세대 반도체 아키텍처 연구원

의미 / 영향

섹션별 상세

실무 Takeaway

에이전트 파이프라인과 대규모 추론 모델의 메모리 병목을 해결하기 위해 HBM4를 능가하는 20TB/s 대역폭의 3D 적층 DRAM 도입이 필수적이다.
3DIMC 기술을 적용하면 비트당 전력 소비를 0.4pJ 이하로 낮추어 기존 솔루션 대비 전력 효율을 10배 개선하고 운영 비용을 절감할 수 있다.
SRAM의 저지연성과 DRAM의 고용량을 결합한 칩렛 설계는 차세대 AI 가속기 Raptor의 핵심 경쟁력이 되어 분산 추론 성능을 극대화한다.

언급된 리소스

문서Blazing the Trail Toward More Scalable, Affordable AI with 3DIMC

d-Matrix, AI 추론 혁신을 위한 업계 최초 3D DRAM 솔루션 '3DIMC' 및 Pavehawk 칩 공개

핵심 요약

배경

대상 독자

의미 / 영향

섹션별 상세

실무 Takeaway

언급된 리소스

d-Matrix, AI 추론 혁신을 위한 업계 최초 3D DRAM 솔루션 '3DIMC' 및 Pavehawk 칩 공개

핵심 요약

배경

대상 독자

의미 / 영향

섹션별 상세

실무 Takeaway

언급된 리소스

관련 피드

관련 토론

댓글

관련 피드

관련 토론

댓글