Liquid AI, 로컬 도구 실행에 최적화된 LFM2-24B-A2B 모델 및 LocalCowork 에이전트 공개

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

Liquid AI는 로컬 환경에서 저지연 도구 실행에 최적화된 LFM2-24B-A2B 모델과 오픈소스 데스크톱 에이전트인 LocalCowork를 발표했다. 이 시스템은 Sparse Mixture-of-Experts(MoE) 아키텍처를 채택하여 240억 개의 파라미터 중 토큰당 20억 개만 활성화함으로써 소비자용 하드웨어에서도 효율적으로 구동된다. Model Context Protocol(MCP)을 통해 파일 시스템 조작, OCR, 보안 스캔 등 다양한 기업용 워크플로우를 외부 데이터 유출 없이 완전히 오프라인으로 처리한다. 이를 통해 프라이버시가 중요한 엔터프라이즈 환경에서 실시간 상호작용이 가능한 온디바이스 AI 솔루션을 제공한다.

배경

Sparse Mixture-of-Experts (MoE) 아키텍처에 대한 이해, Model Context Protocol (MCP) 기본 개념, GGUF 양자화 및 llama.cpp 실행 환경 지식

대상 독자

온디바이스 AI 및 프라이버시 중심의 엔터프라이즈 에이전트 개발자

의미 / 영향

이 기술은 클라우드 의존도를 낮추고 데이터 보안을 강화하려는 기업들에게 실질적인 대안을 제시한다. 특히 소비자용 하드웨어에서 저지연으로 도구를 실행할 수 있게 됨으로써, 고가의 서버 인프라 없이도 강력한 AI 에이전트 워크플로우를 보급할 수 있는 기반이 마련됐다.

섹션별 상세

LFM2-24B-A2B 모델은 Sparse MoE 구조를 통해 전체 24B 파라미터 중 2B만 사용하여 추론 속도를 극대화했다. Apple M4 Max(32코어 GPU, 36GB 메모리) 환경에서 Q4_K_M GGUF 양자화 적용 시 약 14.5GB의 RAM만 점유하며, 도구 선택 응답 속도는 평균 385ms를 기록했다.

LocalCowork는 MCP를 기반으로 구축된 완전 오프라인 데스크톱 에이전트로, 14개의 MCP 서버를 통해 75개의 도구를 지원한다. 파일 시스템 검색, API 키 유출 탐지, OCR 텍스트 파싱, PDF 생성 등 실질적인 업무 자동화 도구를 포함하며 모든 작업 내역을 로컬 감사 로그에 기록한다.

성능 평가 결과 단일 단계 도구 실행에서는 80%의 높은 정확도를 보였으나, 3~6단계의 복잡한 체인 작업에서는 26%의 성공률을 나타냈다. 이는 유사한 도구 사이에서 혼동을 일으키는 'sibling confusion' 현상 때문으로 분석되며, 현재는 완전 자율보다는 인간의 개입이 포함된 가이드형 에이전트에 적합하다.

실무 Takeaway

프라이버시가 중요한 기업 환경에서 외부 API 호출 없이 로컬 하드웨어만으로 복잡한 문서 처리 및 보안 스캔 워크플로우를 구축할 수 있다.
Sparse MoE 아키텍처와 GGUF 양자화를 결합하여 24B 규모의 모델을 16GB 미만의 RAM을 가진 소비자용 노트북에서도 실시간 수준(0.4초 미만)으로 구동 가능하다.
MCP 표준을 활용함으로써 기존의 다양한 로컬 도구들을 에이전트와 쉽게 연결하고 확장할 수 있는 표준화된 인터페이스를 확보했다.

언급된 리소스

GitHubLiquid4All GitHub Cookbook