타라스(Taalas), 모델을 실리콘에 직접 각인하여 GPU 대비 1,000배 효율적인 AI 추론 칩 'HC1' 공개

핵심 요약

현재 AI 인프라는 범용 GPU의 유연성에 의존하고 있으나, 이는 메모리와 연산 장치 간의 데이터 이동으로 인한 막대한 에너지 낭비를 초래한다. 토론토 기반 스타트업 타라스(Taalas)는 모델의 가중치와 구조를 실리콘 회로에 직접 각인하는 '다이렉트 투 실리콘(Direct-to-Silicon)' 방식을 통해 이 문제를 해결했다. 그 결과물인 HC1 칩은 Llama 3.1 8B 모델에서 초당 17,000 토큰이라는 압도적인 성능을 기록하며 기존 GPU 대비 1,000배의 효율성을 달성했다. 이러한 접근 방식은 AI 시장을 범용 학습용 GPU와 고효율 전용 추론용 칩으로 이원화하며 AI의 보편화를 가속화할 전망이다.

배경

ASIC(주문형 반도체)의 기본 개념, LLM 추론 과정에서의 메모리 병목 현상(Memory Wall), GPU와 전용 칩의 아키텍처 차이

대상 독자

AI 인프라 설계자, 대규모 LLM 서비스 운영사, 엣지 컴퓨팅 하드웨어 개발자

의미 / 영향

이 기술은 AI 추론 비용을 획기적으로 낮춰 소규모 기업이나 로컬 기기에서도 고성능 AI를 경제적으로 도입할 수 있게 한다. 엔비디아 중심의 범용 GPU 시장에 '추론 전용 하드웨어'라는 강력한 대안을 제시하며 AI 보편화를 가속화할 것이다.

섹션별 상세

기존 GPU 아키텍처의 한계인 메모리 벽(Memory Wall) 문제를 근본적으로 해결했다. 명령어 세트 아키텍처(ISA) 기반의 범용 프로세서는 연산과 메모리를 분리하여 처리하기 때문에 데이터 이동에 전체 전력의 약 90%를 소모한다. 타라스는 독자적인 자동화 설계 흐름을 통해 특정 모델의 계산 그래프를 칩의 물리적 레이아웃으로 직접 변환했다. 이 방식은 모델의 가중치를 실리콘 배선에 직접 에칭하여 데이터 호출 주기를 제거함으로써 에너지 효율을 극대화한다.

HC1(Hardcore 1) 칩은 추론 성능의 한계를 재정의하는 수치를 기록했다. Llama 3.1 8B 모델을 구동할 때 단일 HC1 칩은 초당 16,000에서 17,000 토큰을 처리하는 성능을 보여준다. 이는 단일 사용자에게 약 150 TPS를 제공하는 엔비디아 H100과 비교했을 때 압도적인 수치이다. 단일 칩이 소규모 GPU 데이터 센터 수준의 처리량을 제공하면서도 250W 수준의 저전력으로 작동하여 공랭식 서버 환경에서도 충분히 운용 가능하다.

ASIC 설계의 고질적 문제였던 긴 개발 기간을 자동화 파운드리 시스템으로 극복했다. 과거에는 전용 칩 설계에 수년의 시간과 수천만 달러의 비용이 소요되었으나, 타라스는 모델 가중치를 입력하면 일주일 만에 설계를 생성하는 컴파일러 기반 시스템을 구축했다. 실리콘의 상단 금속 마스크만 변경하는 간소화된 제조 공정을 통해 모델 확정부터 실제 칩 배포까지의 기간을 2개월 이내로 단축했다. 이는 기업이 최신 모델을 미세 조정하고 몇 달 안에 전용 하드웨어로 배포할 수 있는 계절적 하드웨어 주기를 가능하게 한다.

AI 시장의 중심축이 연구 및 학습에서 배포 및 추론으로 이동함에 따라 하드웨어 패러다임의 변화가 예상된다. 엔비디아와 AMD가 주도하는 범용 학습 시장과 타라스와 같은 파운드리가 주도하는 특화 추론 시장으로 이원화될 가능성이 크다. 추론 비용이 획기적으로 낮아지면 AI는 중앙 집중식 클라우드 서버를 벗어나 스마트폰, 산업용 센서 등 로컬 기기에 직접 탑재되는 '디바이스 네이티브' 형태로 진화한다. 이는 지연 시간과 구독 비용이 없는 보편적 AI 시대를 앞당기는 핵심 동력이 된다.

실무 Takeaway

모델 가중치를 실리콘에 직접 각인하여 메모리 이동에 따른 전력 낭비 90%를 제거하고 효율성을 1,000배 향상했다.
Llama 3.1 8B 모델에서 17,000 TPS를 달성하여 단일 칩으로 GPU 클러스터급의 추론 성능을 제공한다.
자동화된 설계 시스템을 통해 ASIC 제작 기간을 2년에서 2개월로 단축하여 모델 업데이트 주기에 신속하게 대응한다.
고가의 HBM과 복잡한 수냉식 쿨링 시스템 없이 일반 공랭식 서버 랙에서 운영 가능하여 인프라 구축 비용을 획기적으로 낮춘다.

언급된 리소스

문서The Path to Ubiquitous AI