MacinAI Local: Mac OS 9을 위한 모델 독립적 LLM 추론 엔진 구축기

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

빈티지 매킨토시 하드웨어에서 현대적인 LLM을 실행하기 위해 C89 표준으로 작성된 커스텀 추론 엔진 MacinAI Local이 개발됐다. 1GHz PowerPC G4 프로세서와 1GB RAM을 탑재한 2002년형 PowerBook G4에서 AltiVec SIMD 최적화를 통해 초당 약 3토큰의 추론 속도를 달성했다. 이 엔진은 LLaMA와 GPT-2 아키텍처를 모두 지원하며, 메모리 파편화를 방지하기 위한 Arena Allocator와 RAM 부족 시를 대비한 Disk Paging 시스템을 갖추고 있다. 단순한 챗봇을 넘어 AppleScript 생성을 통해 시스템 제어 및 자동화가 가능한 에이전트 기능을 제공한다.

배경

Transformer 아키텍처에 대한 이해, C89 프로그래밍 및 메모리 관리 지식, SIMD(AltiVec) 및 컴퓨터 아키텍처 기초

대상 독자

빈티지 컴퓨팅 애호가, 저수준 C 개발자, LLM 추론 엔진 최적화 연구자

의미 / 영향

현대적인 AI 기술이 수십 년 된 레거시 하드웨어에서도 구동될 수 있음을 증명하며, 이는 엣지 컴퓨팅이나 극도로 제한된 자원 환경에서의 모델 배포 전략에 영감을 준다. 특히 특정 도메인 지식과 도구 사용 능력을 결합하면 초소형 모델로도 충분히 유용한 에이전트를 구축할 수 있음을 보여준다.

섹션별 상세

MacinAI Local은 CodeWarrior Pro 5를 사용하여 C89 표준으로 작성된 모델 독립적 추론 엔진이다. LLaMA 계열(RMSNorm, SwiGLU, RoPE)과 GPT-2 계열(LayerNorm, GeLU, Learned Positional Embeddings) 아키텍처를 모두 지원하며, Python 기반의 내보내기 파이프라인을 통해 Hugging Face 모델을 커스텀 .bin 포맷으로 변환하여 로드한다.

PowerBook G4 Titanium 노트북 앞에 MacinAI Local 설치 CD 두 장이 놓여 있는 모습. — Photo이 이미지는 프로젝트의 실제 구동 환경인 PowerBook G4 하드웨어와 배포 형태(CD-R)를 보여준다. 화면에는 하드웨어 사양을 감지하고 모델을 로드하는 MacinAI Local의 스플래시 화면이 나타나 있어 실제 작동 여부를 시각적으로 증명한다.

Classic Mac OS의 메모리 관리 한계를 극복하기 위해 Arena Allocator를 구현했다. 시스템 시작 시 물리 RAM의 약 88%를 하나의 연속된 블록으로 할당받아 내부적으로 bump-pointer 방식을 사용함으로써 메모리 파편화를 방지한다. 모든 할당은 AltiVec 벡터 로드를 위해 16바이트 정렬을 유지하며, RAM이 부족한 저사양 기기에서는 Transformer 레이어를 디스크에서 순차적으로 읽어오는 Disk Paging 시스템이 작동한다.

PowerPC G4의 AltiVec(Velocity Engine) 유닛을 활용해 행렬-벡터 곱셈 성능을 극대화했다. 4-wide 루프 언롤링과 vec_dstt 명령어를 이용한 캐시 프리페칭을 적용하여 스칼라 C89 코드 대비 최대 7.3배의 성능 향상을 기록했다. 특히 컴파일러의 vec_ld 오프셋 버그를 해결하기 위해 포인터 산술 연산을 사용하고, 비정규화된 부동 소수점 처리를 위해 VSCR 레지스터를 조정하는 등 저수준 최적화가 포함됐다.

100M 파라미터 규모의 커스텀 Macintosh 특화 모델을 3단계로 학습시켰다. Inside Macintosh 등 94,000개 이상의 정제된 매킨토시 관련 문서로 사전 학습(Pre-training)을 진행한 후, AppleScript 생성 및 하드웨어 사양 답변을 위한 SFT(Supervised Fine-Tuning)와 답변 품질 개선을 위한 DPO(Direct Preference Optimization)를 거쳤다.

모델이 생성한 AppleScript를 통해 실제 시스템 작업을 수행하는 에이전트 기능을 탑재했다. 사용자의 의도를 분류하여 파일 복사, 앱 실행, 휴지통 비우기 등의 스크립트를 생성하며, Open Scripting Architecture(OSA)를 통해 이를 실행한다. 생성된 코드의 안전성을 위해 실행 전 사용자 확인 대화상자를 표시하고, 모델의 출력에서 발생하는 토큰 누수(Token Leaking)나 문법 오류를 정제하는 후처리 가드가 작동한다.

실무 Takeaway

극심한 하드웨어 제약 환경에서도 AltiVec SIMD 최적화와 커스텀 Arena Allocator를 통해 실용적인 수준(3 tok/s)의 LLM 추론이 가능하다.
소규모 모델(100M)의 성능 한계를 극복하기 위해 정제된 도메인 특화 데이터셋 학습과 정적 데이터베이스(MacSpecsTable)를 결합한 하이브리드 라우팅 방식을 사용했다.
에뮬레이터와 실제 하드웨어의 부동 소수점 처리(NaN, Denormals) 및 메모리 대역폭 차이가 크므로 저수준 엔진 개발 시 실기 검증이 필수적이다.

언급된 리소스

DemoMacinAI Local v0.1.0 Download