OpenRouter 데이터로 본 LLM 경제학: Hy3 preview의 의외의 인기와 비용 최적화

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

OpenRouter의 모델 랭킹에서 Tencent의 Hy3 preview가 상위권에 위치한 현상을 분석한다. 단순히 명시된 가격만으로는 Hy3의 인기를 설명하기 어려우며, DeepSeek V4 Flash와 같은 모델이 캐시 적중률을 고려할 때 더 경제적임을 확인한다. LLM API 비용의 98%가 입력 토큰에서 발생함에 따라, 캐시 읽기 비용을 포함한 실질 가격(Effective Pricing)이 모델 선택의 핵심 지표로 부상한다.

대상 독자

프로덕션 환경에서 LLM API를 사용하는 개발자 및 비용 최적화 담당자

의미 / 영향

LLM 시장에서 단순 모델 성능 경쟁을 넘어, 인프라 최적화와 캐싱 전략을 통한 비용 효율성이 기업의 모델 선택 기준이 되고 있다.

섹션별 상세

OpenRouter 랭킹에서 Hy3 preview가 상위권을 차지했으나, 모델 품질이나 명시된 가격 측면에서 압도적인 우위를 찾기 어렵다.

OpenRouter의 2026년 5월 25일 기준 모델 랭킹 차트. — ChartHy3 preview와 DeepSeek V4 Flash가 상위권에 위치함을 보여주며, 모델 간 토큰 사용량 격차를 시각화한다.

Hy3 preview의 사용량은 특정 앱의 일시적 스파이크가 아닌 유기적인 패턴을 보이며, 대규모 앱의 백본으로 사용될 가능성이 높다.

Hy3 preview를 사용하는 상위 5개 앱의 사용량 분포. — Chart상위 5개 앱이 전체 사용량의 1% 미만을 차지함을 보여주며, 특정 앱에 의존하지 않는 유기적 사용 패턴을 증명한다.

SiliconFlow를 통한 Hy3 preview의 일일 사용량 추이. — Chart무료 SKU에서 유료 SKU로 전환된 이후에도 사용량이 급격히 감소하지 않았음을 보여주며, 모델의 실질적 가치를 시사한다.

현재 LLM API 비용 구조는 입력 토큰이 전체의 98%를 차지하며, 이를 효율적으로 처리하는 Prompt Caching이 비용 절감의 핵심이다.

DeepSeek V4 Flash는 DeepSeek 자체 API를 통해 이용 시 캐시 읽기 비용이 2% 수준으로 매우 낮아, 실질적인 비용 효율성이 가장 높다.

사용자는 단순히 모델의 명시적 가격이 아닌, 캐시 적중률과 공급자별 캐시 읽기 비용을 고려한 실질 가격(Effective Pricing)을 기준으로 모델을 선택해야 한다.

공급자별 DeepSeek V4 Flash의 실질 가격(Effective Pricing) 비교표. — Chart캐시 적중률과 읽기 비용을 반영한 실질 가격이 공급자마다 크게 다름을 보여주며, DeepSeek 자체 API의 가격 경쟁력을 입증한다.

실무 Takeaway

LLM API 비용의 98%가 입력 토큰에서 발생하므로, Prompt Caching 활용이 비용 절감의 가장 큰 변수이다.
모델 선택 시 명시된 가격표보다 공급자별 캐시 읽기 비용을 포함한 실질 가격(Effective Pricing)을 비교해야 한다.
DeepSeek V4 Flash와 같이 자체 인프라에서 캐시 읽기 비용을 최적화한 모델이 경제성 측면에서 유리하다.

언급된 리소스

DemoOpenRouter AI Model Rankings