AI EngineerAI/ML조회 3회

Function Gemma와 LiteRT-LM을 활용한 온디바이스 AI 구현

270M 파라미터의 Function Gemma 모델을 활용해 Pixel 7에서 초당 2,000 토큰을 처리하는 온디바이스 AI 구현 방법을 다룬다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

270M 파라미터 규모의 Function Gemma는 Pixel 7에서 초당 2,000 토큰의 prefill 속도를 보이며, 파인튜닝을 통해 특정 작업 정확도를 90%까지 향상할 수 있다. 개발자는 범용 작업에 Gemini Nano를, 커스텀 모델 배포에 LiteRT-LM을 선택하여 최적의 온디바이스 AI 환경을 구축한다.

배경

모바일 기기에서 서버 통신 없이 즉각적인 AI 기능을 제공하는 온디바이스 AI의 중요성이 커지고 있다.

대상 독자

모바일 앱에 AI 기능을 탑재하려는 개발자

의미 / 영향

모바일 앱 개발자는 고성능 온디바이스 AI 모델을 직접 앱에 탑재하여 서버 의존도를 낮추고 응답 속도를 극대화할 수 있다. Function Gemma와 같은 경량 모델의 활용은 비용 효율적인 AI 서비스 구축을 가능하게 한다.

챕터별 상세

00:00

Function Gemma 성능 및 특징

Function Gemma는 2억 7천만(270M) 파라미터 규모의 경량 모델이다. Pixel 7 기기에서 초당 2,000 토큰의 prefill 속도를 기록하여 실시간 추론이 가능하다. 기본 상태에서 특정 앱 의도(app intents)에 대해 46%의 정확도를 보이나, 합성 데이터셋으로 파인튜닝을 거치면 10개 함수 중 8개에서 90% 이상의 정확도를 달성한다.

Prefill은 LLM 추론 시 입력 프롬프트를 처리하여 KV 캐시를 생성하는 단계로, 전체 응답 속도에 큰 영향을 미친다.

05:00

온디바이스 AI 구현 전략

개발자는 온디바이스 AI 구현을 위해 두 가지 경로를 선택할 수 있다. 일반적인 작업에는 AI Core를 통해 Gemini Nano를 활용한다. 반면, 앱 내부에 직접 탑재하는 커스텀 모델이 필요한 경우 LiteRT-LM을 사용한다.

LiteRT-LM은 모바일 및 엣지 기기에서 LLM을 효율적으로 실행하기 위한 경량화 추론 라이브러리이다.

12:00

실습 데모: Gemma 4와 Eloquent

Gemma 4를 기반으로 한 레스토랑 룰렛 데모를 통해 온디바이스 환경에서 모델이 완전히 작동하는 모습을 확인한다. 또한, 수억 개의 파라미터 미만인 두 모델을 체이닝하여 구현한 프로덕션 수준의 전사(transcription) 앱인 Eloquent를 시연한다.

언급된 리소스

문서LiteRT-LM

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 05. 20.수집 2026. 05. 20.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.