Google TensorFlow 2.21 출시: LiteRT 정식 버전 전환 및 온디바이스 AI 성능 강화

핵심 요약

Google이 TensorFlow 2.21 버전을 공식 출시하며 LiteRT를 프리뷰 단계에서 정식 프로덕션 스택으로 전환했다. LiteRT는 기존 TensorFlow Lite(TFLite)를 완전히 대체하는 유니버설 온디바이스 추론 프레임워크로, GPU 성능을 1.4배 향상시키고 NPU 가속을 위한 통합 워크플로우를 제공한다. 특히 INT4 및 INT2와 같은 초저정밀도 양자화 지원을 대폭 확대하여 모바일 및 에지 기기에서의 메모리 효율성을 개선했다. 이번 업데이트는 PyTorch와 JAX 모델의 직접 변환을 지원하여 프레임워크 간 호환성을 높였으며, 향후 TensorFlow 코어는 보안과 안정성 유지보수에 집중할 계획이다.

배경

TensorFlow 기초 지식, 온디바이스 추론(On-device Inference) 개념, 모델 양자화(Quantization) 이해

대상 독자

모바일 및 에지 기기용 AI 모델을 개발하고 배포하는 ML 엔지니어 및 임베디드 개발자

의미 / 영향

LiteRT의 정식 출시와 성능 향상은 모바일 환경에서 Gemma와 같은 대형 모델의 실행 장벽을 낮출 것이다. 특히 초저정밀도 양자화 지원은 저사양 하드웨어에서도 고성능 AI 기능을 구현할 수 있게 하여 온디바이스 AI 생태계의 확장을 가속화할 것으로 보인다.

섹션별 상세

LiteRT가 프리뷰를 마치고 정식 프로덕션 스택으로 승격되어 기존의 TensorFlow Lite(TFLite)를 공식적으로 대체한다. LiteRT는 모바일 및 에지 기기에서 머신러닝 모델을 배포하기 위한 유니버설 프레임워크 역할을 수행하며, 하드웨어와 프레임워크 간의 호환성을 대폭 확장했다. 개발자들은 이제 더 안정적이고 최적화된 환경에서 온디바이스 AI 서비스를 구축할 수 있다.

하드웨어 가속 측면에서 LiteRT는 기존 TFLite 대비 GPU 성능이 1.4배 향상되었으며, NPU(Neural Processing Unit) 통합을 위한 최신 가속 기능을 도입했다. 에지 플랫폼 전반에서 GPU와 NPU를 아우르는 단일화된 워크플로우를 제공하여 Gemma와 같은 오픈 모델의 생성형 AI(GenAI) 배포를 효과적으로 지원한다. 이는 스마트폰이나 IoT 기기에서 추론 속도를 높이고 배터리 효율을 개선하는 데 기여한다.

메모리가 제한된 에지 기기에서의 효율성을 위해 양자화(Quantization) 지원이 대폭 강화되었다. SQRT 및 비교 연산자에서 int8 및 int16x8 타입을 지원하며, 특히 cast, slice, fully_connected 연산자에서 INT4 및 INT2와 같은 초저정밀도 데이터 타입을 지원하기 시작했다. 이러한 낮은 비트 정밀도 지원은 모델의 가중치와 활성화를 저장하는 데 필요한 메모리를 획기적으로 줄여 복잡한 모델의 온디바이스 실행을 가능하게 한다.

프레임워크 간의 상호운용성이 개선되어 PyTorch 및 JAX로 학습된 모델을 LiteRT 형식으로 직접 변환할 수 있는 기능을 제공한다. 과거에는 타 프레임워크 모델을 모바일용으로 변환하는 과정이 복잡했으나, 이제는 아키텍처를 TensorFlow로 다시 작성할 필요 없이 매끄러운 모델 변환이 가능하다. 이를 통해 연구 단계에서 사용한 프레임워크에 구애받지 않고 신속하게 프로덕션 환경으로 배포할 수 있는 파이프라인이 구축되었다.

Google은 TensorFlow 코어 리소스를 장기적인 안정성 유지에 집중 배치하며 보안 취약점 해결과 버그 수정에 주력할 방침이다. 새로운 Python 릴리스와 같은 종속성 업데이트를 지원하기 위한 마이너 버전 출시를 지속하며, 오픈소스 커뮤니티의 기여를 적극적으로 검토할 예정이다. 이러한 유지보수 정책은 TF.data, TensorFlow Serving, TFX 등 에코시스템 전반의 엔터프라이즈 도구들에 동일하게 적용된다.

실무 Takeaway

LiteRT가 TFLite를 대체하는 정식 온디바이스 추론 표준으로 확정되어 GPU 성능이 1.4배 향상되었다.
INT4 및 INT2 양자화 지원 확대로 모바일 기기에서의 메모리 점유율을 최소화하고 실행 효율을 높였다.
PyTorch와 JAX 모델의 네이티브 변환을 지원하여 프레임워크 종속성 없이 에지 배포가 가능해졌다.

언급된 리소스

GitHubTensorFlow 2.21 Technical Details