Liquid AI, 24B 파라미터 규모의 LFM2-24B-A2B 모델 출시

핵심 요약

Liquid AI가 24B 파라미터 규모의 Sparse MoE 모델 LFM2-24B-A2B를 출시하며, 하이브리드 아키텍처의 효율적인 확장성과 로컬 실행 가능성을 입증했다.

배경

Liquid AI가 자사의 LFM2 아키텍처를 24B 규모로 확장한 새로운 모델을 공개했다. 기존 350M 모델에서 보여준 효율성을 대규모 파라미터에서도 유지하며 로컬 환경 배포를 목표로 한다.

의미 / 영향

LFM2 아키텍처의 확장은 기존 트랜스포머 기반 모델 외에도 효율적인 대안이 존재함을 시사한다. 특히 로컬 환경에서의 고성능 추론을 위한 MoE 최적화 기술이 실무적으로 유효함이 확인됐다.

커뮤니티 반응

대체로 긍정적이며, 특히 로컬 실행이 가능한 MoE 구조와 하이브리드 아키텍처의 확장성에 큰 관심을 보이고 있다.

합의점 vs 논쟁점

합의점

LFM2 아키텍처의 확장성이 24B 규모에서도 유효함
소비자용 하드웨어(32GB RAM)에서의 구동 가능성
주요 오픈소스 추론 엔진(llama.cpp 등)의 즉각적인 지원

언급된 도구

llama.cpp추천

로컬 LLM 추론 엔진

vLLM추천

고성능 LLM 서빙 엔진

SGLang추천

LLM 추론 및 서빙 프레임워크

섹션별 상세

LFM2-24B-A2B는 240억 개의 전체 파라미터를 보유하고 있으나, 토큰당 활성 파라미터는 23억 개에 불과한 Sparse MoE 구조를 채택했다. 40개의 레이어와 MoE 블록당 64개의 전문가(Expert)를 배치하고 Top-4 라우팅 방식을 사용하여 연산 효율을 극대화했다. 이는 하이브리드 컨볼루션(Hybrid Conv)과 GQA(Grouped Query Attention) 설계를 결합하여 대규모 확장이 가능함을 보여준다.

이 모델은 32GB RAM 환경에서 구동되도록 설계되어 고사양 소비자용 노트북이나 데스크톱에서도 로컬 실행이 가능하다. 출시와 동시에 llama.cpp, vLLM, SGLang 등 주요 추론 엔진을 지원하며, 다양한 GGUF 양자화 버전도 함께 제공된다. 이는 클라우드뿐만 아니라 온디바이스 환경에서도 고성능 AI를 접근 가능하게 하려는 전략의 일환이다.

성능 면에서는 GPQA Diamond, MMLU-Pro, IFEval 등 주요 벤치마크에서 350M 모델부터 24B 모델까지 로그-선형(Log-linear)적인 품질 향상을 기록했다. 이는 LFM2 아키텍처가 소규모 모델에만 국한되지 않고 규모가 커짐에 따라 성능이 정체되지 않고 지속적으로 개선됨을 입증한다. 특히 추론 지연 시간과 에너지 소비를 엣지 배포 제약 조건에 맞추어 최적화했다.

실무 Takeaway

Liquid AI의 LFM2 아키텍처가 24B 규모까지 성공적으로 확장되었으며 성능 정체 현상이 나타나지 않았다.
24B 모델임에도 활성 파라미터를 2.3B로 억제하여 32GB RAM을 가진 소비자용 하드웨어에서 로컬 실행이 가능하다.
Hugging Face를 통해 가중치가 공개되었으며 llama.cpp 등 오픈소스 생태계의 즉각적인 지원을 받는다.

언급된 리소스

문서Liquid AI Blog: LFM2-24B-A2B

문서Hugging Face: LiquidAI/LFM2-24B-A2B

문서Liquid AI Documentation

DemoLiquid AI Playground