핵심 요약
SANSARA는 개인정보 보호를 위해 모든 기능을 기기 내에서 처리하는 오프라인 전용 AI 웰니스 앱이다. React Native 0.84와 Meta의 ExecuTorch를 기반으로 Llama 3.2 모델을 4비트 양자화하여 모바일 환경에 최적화했다. 9개의 전문 에이전트가 공유 상태인 'Blackboard'를 통해 협업하는 구조를 가지며, 사용자의 피드백을 LoRA 기법으로 야간에 학습하여 고도의 개인화를 실현한다. 네트워크 권한을 아예 배제하여 데이터 유출 가능성을 구조적으로 차단한 것이 특징이다.
배경
React Native 개발 지식, LLM 양자화 및 추론 기본 개념, 에이전트 기반 아키텍처에 대한 이해
대상 독자
온디바이스 LLM 애플리케이션을 설계하는 모바일 개발자 및 AI 아키텍트
의미 / 영향
SANSARA의 아키텍처는 클라우드 의존성을 완전히 제거함으로써 AI 앱의 운영 비용을 획기적으로 낮추고 프라이버시 문제를 원천적으로 해결할 수 있음을 보여준다. 특히 모바일 기기의 NPU 성능이 향상됨에 따라 이러한 오프라인 우선 모델이 웰니스, 보안, 개인 비서 분야의 표준이 될 가능성이 높다.
섹션별 상세
하드웨어 사양에 따라 Llama 3.2 1B, 3B, 11B 모델을 선택적으로 실행하며 ExecuTorch와 4비트 QLoRA 양자화를 통해 메모리 사용량을 최적화했다. iPhone 14 이상 또는 Pixel 7 이상의 기기에서 1B 모델 기준 약 1.5GB의 RAM을 점유하며 원활하게 작동한다.
9개의 전문 에이전트가 직접 통신하지 않고 Blackboard라는 공유 JSON 객체를 통해 상태를 주고받는 아키텍처를 채택했다. Matrix Router가 입력 벡터를 분석하여 2~4개의 에이전트를 선택하고, 제안과 비판 과정을 거쳐 최종 응답을 도출하는 컨센서스 루프를 수행한다.
텍스트 입력 외에도 Whisper ASR을 통한 음성 분석, MLKit 기반의 안면 인식, 그리고 HealthKit의 생체 데이터를 결합하는 멀티모달 퓨전 레이어를 갖췄다. 모든 원시 데이터는 임베딩 추출 직후 RAM에서 삭제되며 오직 벡터 데이터만 기기에 남는다.
사용자가 충전 중이거나 유휴 상태일 때 MLX Swift(iOS) 또는 ExecuTorch(Android)를 사용하여 LoRA 파인튜닝을 수행한다. 이를 통해 사용자의 교정 사항이나 대화 패턴을 모델에 반영하여 서버 연결 없이도 지속적인 개인화 학습이 가능하다.
ObjectBox 4.0과 HNSW 벡터 인덱스를 사용하여 수백만 개의 임베딩에 대해 5ms 미만의 검색 지연 시간을 달성했다. 데이터는 시간에 따라 Hot, Warm, Cold 계층으로 관리되며 모든 데이터는 AES-256으로 암호화되어 기기 내에만 저장된다.
실무 Takeaway
- ExecuTorch와 4비트 양자화를 결합하면 모바일 기기에서도 1B~3B 파라미터급 LLM을 실용적인 속도로 구동할 수 있다.
- 블랙보드 패턴 아키텍처는 선형적인 에이전트 체인에서 발생하는 컨텍스트 손실 문제를 해결하고 복잡한 협업 로직을 효율적으로 관리하게 한다.
- LoRA 기반의 온디바이스 파인튜닝은 서버 비용 부담 없이 사용자 맞춤형 AI 서비스를 제공할 수 있는 강력한 수단이다.
언급된 리소스
AI 분석 전체 내용 보기
AI 요약 · 북마크 · 개인 피드 설정 — 무료