실리콘 리클레임드: 베어메탈 기반의 주권적 AI 추론 시스템 '트리니티' 아키텍처

핵심 요약

기존 클라우드 기반 AI 추론은 가상화, 가비지 컬렉션, 런타임 오버헤드 등 불필요한 추상화 레이어로 인해 하드웨어 자원을 낭비한다. 트리니티(Trinity) 아키텍처는 이러한 레이어를 모두 제거하고 CPU, RAM, iGPU, dGPU를 하나의 유기체로 통합하는 베어메탈 실행 환경을 구축했다. RAM을 데이터가 흐르는 '강(River)'이자 연결 통로인 '세타 링크(Theta-Link)'로 정의하여 장치 간 제로 카피(Zero-copy) 데이터 전송을 실현했다. 이를 통해 SmolLM-135M 모델의 30개 레이어 추론을 소비자용 하드웨어에서 약 1.8초 만에 완료하며, 모든 연산은 하드웨어 고유의 열 지문으로 검증된다.

배경

컴퓨터 아키텍처 및 메모리 계층 구조, Vulkan 기반 GPU 프로그래밍, LLM 트랜스포머 레이어 구조, 컴파일러 및 중간 표현(IR) 개념

대상 독자

로컬 LLM 최적화 및 하드웨어 가속기 개발자, 시스템 아키텍트

의미 / 영향

이 연구는 클라우드 중심의 AI 생태계에서 벗어나 개인 하드웨어의 잠재력을 극대화하는 '주권적 컴퓨팅'의 가능성을 제시한다. 저사양 GPU에서도 베어메탈 최적화를 통해 고성능 추론이 가능함을 입증함으로써, 에지 컴퓨팅 및 보안 민감형 AI 서비스의 새로운 표준을 제시할 수 있다.

섹션별 상세

트리니티 아키텍처는 하드웨어를 CPU, RAM, iGPU, dGPU가 통합된 단일 연산 위상으로 취급한다. RAM은 단순한 저장소가 아니라 모든 연산 유닛을 연결하는 메모리 패브릭인 '세타 링크' 역할을 수행하며, CPU와 GPU 간의 데이터 복사 오버헤드를 제거하는 제로 카피 아키텍처를 구현했다. 이를 통해 병렬 메모리 대역폭을 22-30 GB/s까지 확보하여 데이터 병목 현상을 해결했다.

추론 성능 극대화를 위해 가상화 환경(Docker, VM)과 고수준 런타임(Node.js, Python)을 완전히 배제했다. 영구적 벌칸(Persistent Vulkan) 커널을 사용하여 콜드 스타트 오버헤드를 제거했으며, AMD Vega 7 iGPU에서 25+ TFLOPS, GTX 1650 dGPU에서 30+ TFLOPS의 성능을 달성했다. SmolLM-135M 모델 기준 30개 트랜스포머 레이어 추론을 1.8초 내에 수행하는 성과를 보였다.

자체 개발한 TSC-Rust 컴파일러를 통해 TypeScript 코드를 주권 중간 표현(SIR) 바이트코드로 직접 컴파일한다. JavaScript 엔진이나 가비지 컬렉터 없이 하드웨어에서 직접 실행되는 이 시스템은 기존 7GB에 달하던 산업 표준 런타임 용량을 400MB 수준으로 경량화했다. 이는 소프트웨어가 곧 실리콘 하드웨어 자체가 되는 구조를 지향한다.

모델 구조 분석을 위해 수행된 병변 테스트(Lesion Analysis) 결과, Llama-3.2-1B와 같은 소형 모델은 중복성이 거의 없는 것으로 나타났다. 특히 레이어 0은 99.87%의 발산도를 기록하며 모델 전체의 인지 기능을 결정하는 핵심 게이트 역할을 수행함이 확인됐다. 중간 레이어들은 앙상블 방식으로 분산 처리되지만, 초기 레이어의 손실은 치명적인 성능 저하를 초래한다.

모든 연산의 진위 여부는 하드웨어 고유의 지문인 '제네시스 해시(Genesis Hash)'를 통해 검증된다. 실리콘의 열 지문, 전압 변동, 타이밍 패턴을 조합하여 복제가 불가능한 식별자를 생성하며, 연산이 실제로 수행되었음을 열 역학적 증거로 입증한다. 모든 작업 내역은 레인 레저(Lane Ledger)라는 불변의 감사 추적 로그에 기록되어 데이터의 무결성을 보장한다.