FriendliAI로 전환하고 최대 5만 달러의 추론 크레딧 혜택 받기

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

FriendliAI는 기존 Fireworks AI, Google Vertex AI 등 타사 추론 서비스를 이용 중인 기업들을 대상으로 최대 5만 달러의 전환 크레딧을 제공하는 프로그램을 시작했다. 이 플랫폼은 vLLM 기반 시스템보다 최대 3배 높은 처리량과 낮은 지연 시간을 제공하며, 특히 Qwen3 235B와 같은 대규모 MoE 모델에서 뛰어난 효율성을 입증했다. OpenAI 호환 API를 통해 단 3줄의 코드 수정만으로 마이그레이션이 가능하며, 99.99%의 신뢰성과 자동 확장 기능을 지원한다.

배경

LLM 추론 및 API 연동에 대한 기본 지식, vLLM, Fireworks AI 등 기존 추론 플랫폼 사용 경험, 양자화(Quantization) 및 처리량(Throughput) 지표에 대한 이해

대상 독자

프로덕션 환경에서 대규모 LLM을 운영하며 비용과 성능 최적화가 필요한 개발자 및 인프라 엔지니어

의미 / 영향

이 프로그램은 고비용의 상용 모델(OpenAI, Anthropic)에서 오픈 소스 모델로 전환하려는 기업들에게 강력한 경제적 유인을 제공한다. 특히 vLLM 같은 오픈 소스 엔진보다 높은 효율을 제공함으로써 기업들이 더 적은 GPU 자원으로도 대규모 AI 서비스를 안정적으로 운영할 수 있게 돕는다.

섹션별 상세

FriendliAI는 기존 인프라를 vLLM에서 자사 플랫폼으로 전환할 경우 최대 3배의 처리량 향상과 50~90%의 비용 절감이 가능함을 강조한다. 특히 대규모 트래픽 환경에서 발생하는 지연 시간 변동성과 처리량 한계 문제를 해결하기 위해 설계되었다.

Qwen3 235B 모델을 4개의 H100 GPU에서 벤치마킹한 결과, FriendliAI는 vLLM 8-bit 대비 8-bit 설정에서 1.33배~2.11배, 4-bit 설정에서 최대 3.26배 높은 상대적 처리량을 기록했다. 이는 긴 출력 시나리오에서 특히 두드러진 성능 차이를 보인다.

Qwen3 235B 모델을 4개의 H100 GPU에서 구동했을 때 vLLM과 FriendliAI의 상대적 처리량을 비교한 차트이다. — ChartvLLM 8-bit를 기준(1.0)으로 잡았을 때, Friendli 4-bit는 입력/출력 길이에 따라 최대 3.26배 높은 처리량을 보여준다. 특히 출력 길이가 긴 시나리오(500/4000)에서 FriendliAI의 최적화 효율이 더 극대화됨을 시각적으로 증명한다.

플랫폼은 OpenAI API와 호환되도록 설계되어 기존 코드를 거의 수정하지 않고도 마이그레이션할 수 있다. 사용자는 단 3줄의 코드 변경만으로 50만 개 이상의 Hugging Face 모델 및 커스텀 모델을 즉시 배포하고 트래픽 기반 오토스케일링 기능을 활용할 수 있다.

LG AI Research의 EXAONE 모델 사례를 통해, FriendliAI 도입 후 모델 테스트 및 평가 기간을 수주 단축하고 사용자 만족도를 높인 실질적인 비즈니스 임팩트를 입증했다. 다른 고객사는 월간 수조 개의 토큰을 처리하면서 GPU 자원을 50% 절감하는 성과를 거두었다.

실무 Takeaway

vLLM 기반의 자체 구축 인프라에서 성능 한계에 부딪힌 팀은 FriendliAI로 전환하여 인프라 관리 부담 없이 처리량을 최대 3배까지 높일 수 있다.
Qwen, DeepSeek 등 최신 MoE 모델을 프로덕션에 도입할 때 FriendliAI의 4-bit 양자화 및 최적화 엔진을 사용하면 GPU 비용을 절반 이하로 줄이면서 성능을 유지할 수 있다.
OpenAI 호환 API를 지원하므로 기존 애플리케이션 로직을 유지한 채 엔드포인트 URL과 API 키만 변경하여 즉시 마이그레이션이 가능하다.

언급된 리소스

문서FriendliAI Documentation