SANSARA: 오프라인 우선 온디바이스 AI 웰니스 컴패니언 아키텍처

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

SANSARA는 사용자 데이터 프라이버시를 최우선으로 하는 오프라인 전용 AI 웰니스 애플리케이션이다. React Native 0.84와 Meta의 ExecuTorch를 활용하여 Llama 3.2 모델을 모바일 기기에서 직접 구동하며, 9개의 특화된 에이전트가 'Blackboard' 패턴을 통해 협력하는 구조를 가진다. 모든 추론, 저장, 개인화 학습은 온디바이스에서 이루어지며, 네트워크 권한이나 외부 API 연동을 완전히 배제한 아키텍처를 구축했다. 기기 충전 중 LoRA 기법을 통해 사용자 맞춤형 학습을 수행하여 지속적으로 진화하는 개인화 경험을 제공한다.

배경

PyTorch 및 모델 양자화(Quantization) 개념, React Native 모바일 개발 지식, LLM 에이전트 아키텍처 및 파인튜닝(LoRA) 이해

대상 독자

온디바이스 LLM 배포 및 프라이버시 중심 AI 아키텍처를 설계하는 개발자

의미 / 영향

이 아키텍처는 클라우드 의존성을 완전히 제거함으로써 LLM 서비스의 운영 비용을 획기적으로 낮추고 사용자 데이터 보안을 극대화한다. 특히 모바일 기기의 하드웨어 가속기를 활용한 온디바이스 학습(LoRA) 가능성을 입증하여, 향후 개인화 AI 서비스의 새로운 표준을 제시한다.

섹션별 상세

PyTorch 모델을 torch.export()로 캡처하고 torchao를 통해 4비트 양자화(QLoRA)를 적용한 뒤 ExecuTorch로 컴파일하여 .pte 바이너리를 생성한다. iOS의 CoreML과 Android의 QNN 하드웨어 백엔드를 활용하며, Speculative Decoding을 통해 추론 속도를 2.2~3.6배 향상시켰다. Llama 3.2 1B 모델 기준 약 1.5GB의 RAM을 점유하며 모바일 기기에서 원활하게 작동한다.

text

PyTorch model → torch.export() # Capture computational graph
→ torchao quantization # 4-bit via SmoothQuant / SpinQuant
→ ExecuTorch lowering # Hardware backend delegation
→ .pte binary # Ahead-of-time compiled artifact

PyTorch 모델을 온디바이스용 .pte 바이너리로 변환하는 컴파일 파이프라인

9개의 에이전트가 직접 통신하는 대신 공유 가변 상태 객체인 'Blackboard'를 통해 소통하는 아키텍처를 채택했다. Matrix Router라는 100M 미만 파라미터의 분류 모델이 입력을 분석하여 2-4개의 적합한 에이전트를 선택한다. 선택된 에이전트들은 제안(Propose), 비판(Critique), 정제(Refine) 과정을 반복하는 컨센서스 루프를 통해 최종 응답을 도출하며, 이는 선형적인 체인 방식의 컨텍스트 저하 문제를 해결한다.

json

Blackboard = {
  raw_input: string,
  prosody_vector: float[],
  emotion_vector: float[192],
  biometric_state: { steps, light, hrv, sleep },
  history_embeds: float[][], // HNSW nearest neighbors
  agent_proposals: Proposal[],
  agent_critiques: Critique[],
  consensus_state: "pending" | "converged",
  final_response: string | null
}

에이전트들이 공유하여 사용하는 Blackboard 객체의 데이터 구조

Whisper(음성), MLKit(안면 인식), HealthKit(생체 데이터)을 결합하여 통합 컨텍스트 벡터를 생성하는 멀티모달 퓨전 레이어를 갖추고 있다. 데이터는 ObjectBox 4.0과 HNSW 벡터 인덱스를 사용하여 로컬에 저장되며, 5년 주기 계층화(Hot/Warm/Cold) 메모리 모델을 통해 효율적으로 관리된다. 모든 데이터는 AES-256 방식으로 암호화되어 기기 내부에만 머무른다.

기기가 충전 중이거나 유휴 상태일 때 MLX Swift(iOS) 또는 ExecuTorch(Android)를 사용하여 온디바이스 LoRA 파인튜닝을 수행한다. 2~5M 개의 파라미터만 학습시켜 10~50MB 크기의 어댑터를 생성하며, 사용자의 피드백 세션과 대화 품질 신호를 바탕으로 모델을 개인화한다. 또한 ARIMA 알고리즘을 사용하여 로컬 감정 벡터의 72시간 Mood trajectory를 예측하고 선제적인 조치를 취한다.

실무 Takeaway

ExecuTorch와 4비트 양자화를 결합하면 Llama 3.2 1B 모델을 1.5GB RAM 환경의 모바일 기기에서 네트워크 없이 오프라인으로 구동할 수 있다.
복잡한 다중 에이전트 협업 시 Blackboard 패턴을 사용하면 에이전트 간 결합도를 낮추고 병렬적인 제안과 검증을 통해 응답의 품질을 높일 수 있다.
프라이버시가 민감한 서비스는 네트워크 권한을 완전히 제거하고 온디바이스 LoRA 학습을 통해 보안과 개인화라는 두 마리 토끼를 동시에 잡을 수 있다.

언급된 리소스

문서SANSARA App Info

GitHubExecuTorch GitHub