핵심 요약
생성형 AI 트렌드가 모델 크기 경쟁에서 아키텍처 효율성 중심으로 이동하고 있다. Liquid AI는 240억 개의 파라미터를 가진 LFM2-24B-A2B 모델을 출시하며 엣지 기기에서도 고성능 AI를 구현할 수 있음을 입증했다. 이 모델은 Attention-to-Base(A2B)라는 하이브리드 구조를 채택하여 연산 복잡도를 낮추고, Sparse MoE 기술을 통해 토큰당 23억 개의 파라미터만 활성화한다. 결과적으로 소비자용 하드웨어에서도 구동 가능하면서도 기존 대형 모델을 능가하는 추론 속도와 성능을 제공한다.
배경
트랜스포머(Transformer) 아키텍처, MoE(Mixture of Experts) 개념, GQA(Grouped Query Attention)
대상 독자
엣지 디바이스용 LLM 배포 개발자 및 로컬 RAG 시스템 구축 엔지니어
의미 / 영향
거대 모델 경쟁에서 효율성 중심으로 패러다임이 전환되고 있음을 보여준다. 특히 고가의 GPU 인프라 없이도 소비자용 하드웨어에서 고성능 AI를 구동할 수 있게 되어 온디바이스 AI 시장의 확장을 가속화할 전망이다.
섹션별 상세
전통적인 트랜스포머의 Softmax Attention이 가진 이차 복잡도 문제를 해결하기 위해 Gated Short Convolution 블록과 Grouped Query Attention(GQA)을 3:1 비율로 혼합한 A2B 아키텍처를 사용한다. 총 40개 레이어 중 30개는 컨볼루션 기반의 'Base' 레이어로, 10개는 GQA 기반의 'Attention' 레이어로 구성된다. 이러한 구조는 트랜스포머의 추론 능력을 유지하면서도 선형 복잡도 모델의 빠른 프리필(Prefill) 속도와 낮은 메모리 점유율을 동시에 확보한다.
전체 파라미터는 240억 개에 달하지만 Sparse Mixture of Experts(MoE) 설계를 통해 실제 추론 시 토큰당 23억 개의 파라미터만 활성화한다. 이는 24B급 모델의 지식 밀도를 유지하면서도 실제 연산량은 2B급 모델 수준으로 낮추는 효과를 가져온다. 덕분에 32GB RAM을 탑재한 고사양 노트북이나 통합 GPU(iGPU), NPU 환경에서도 데이터센터급 GPU 없이 로컬 실행이 가능하다.
LFM2-24B-A2B는 GSM8K 및 MATH-500과 같은 논리 추론 테스트에서 자신의 크기보다 두 배 큰 고정형(Dense) 모델들과 대등한 성능을 보였다. NVIDIA H100 1개 기준 vLLM 벤치마크에서 초당 26.8K 토큰의 처리량을 기록하며 Snowflake의 gpt-oss-20b나 Qwen3-30B-A3B를 크게 앞질렀다. 또한 32k 토큰의 컨텍스트 윈도우를 지원하여 개인정보 보호가 중요한 로컬 RAG 시스템이나 문서 분석에 최적화되어 있다.
실무 Takeaway
- A2B 아키텍처를 통해 트랜스포머 대비 메모리 사용량을 획기적으로 줄이면서도 고해상도 정보 검색 능력을 유지한다.
- Sparse MoE를 적용하여 24B 모델의 지능을 2B 모델의 전력 효율과 속도로 소비자용 기기에서 구현한다.
- vLLM, llama.cpp, SGLang 등 주요 추론 엔진을 기본 지원하여 즉각적인 실무 도입이 가능하다.
언급된 리소스
AI 분석 전체 내용 보기
AI 요약 · 북마크 · 개인 피드 설정 — 무료