분류

LLM inference & hosting — aggregators, low-latency hardware, pricing

Token-metered inference services, aggregator gateways, custom-silicon providers, and serverless GPU platforms at a glance.

This is the feeder line for apps that don’t want to babysit GPUs. Compare **unit price** (token or second), **tail latency** (P95 on the same model), **model catalog**, **data routing**, and **OpenAI-compatible endpoints**. Ultra-low-latency use cases (voice agents, interactive IDEs) look at Groq/Cerebras/SambaNova. Multi-vendor experimenting leans on OpenRouter/LiteLLM. Custom weights land on Replicate/Modal/Baseten/Together/Fireworks.

편집 / GSC 추가

Aggregator gateways vs direct vendor contracts

Gateways win on speed-of-switch and A/B pricing; they lose on extra data hop and longer SLA chain. Critical enterprise paths usually graduate to direct contracts.

Are Groq and Cerebras actually cheaper than GPU clouds?

On latency-sensitive loads the $/token and tail-latency curve are often better, but model catalog and burst quotas are narrower—load test with real traffic before cutover.

Where do I deploy a fine-tuned model?

Replicate, Modal, Baseten, Together, and Fireworks all offer custom weights with metered billing. Watch cold-start tail latency and how reserved hardware is billed.

이 분류의 도구

요약과 공식 링크는 각 상세 페이지에서 확인하고, 같은 분류의 관련 항목도 살펴보세요.

Groq

Groq: 인기 AI 제품—기능·가격·지원 지역·데이터 처리·최신 모델은 공식 사이트를 확인하세요.

추론 / 호스팅
Replicate

Replicate: 인기 AI 제품—기능·가격·지원 지역·데이터 처리·최신 모델은 공식 사이트를 확인하세요.

추론 / 호스팅
fal

fal: 인기 AI 제품—기능·가격·지원 지역·데이터 처리·최신 모델은 공식 사이트를 확인하세요.

추론 / 호스팅
Together AI

Together AI: 인기 AI 제품—기능·가격·지원 지역·데이터 처리·최신 모델은 공식 사이트를 확인하세요.

추론 / 호스팅
Fireworks AI

Fireworks AI: 인기 AI 제품—기능·가격·지원 지역·데이터 처리·최신 모델은 공식 사이트를 확인하세요.

추론 / 호스팅
OpenRouter

OpenRouter: 인기 AI 제품—기능·가격·지원 지역·데이터 처리·최신 모델은 공식 사이트를 확인하세요.

추론 / 호스팅
硅基流动 SiliconFlow

硅基流动 SiliconFlow: 인기 AI 제품—기능·가격·지원 지역·데이터 처리·최신 모델은 공식 사이트를 확인하세요.

추론 / 호스팅
Cerebras Inference

Cerebras 웨이퍼 스케일 추론. 주요 OSS LLM에서 극한 토큰 처리; 인터랙티브 앱에 유리, 모델 목록은 공식 사이트.

추론 / 호스팅
SambaNova Cloud

SambaNova Cloud: 인기 AI 제품—기능·가격·지원 지역·데이터 처리·최신 모델은 공식 사이트를 확인하세요.

추론 / 호스팅
Baseten

Baseten: 인기 AI 제품—기능·가격·지원 지역·데이터 처리·최신 모델은 공식 사이트를 확인하세요.

추론 / 호스팅
Modal

Modal: 인기 AI 제품—기능·가격·지원 지역·데이터 처리·최신 모델은 공식 사이트를 확인하세요.

추론 / 호스팅
LiteLLM

오픈소스 LLM 프록시 게이트웨이. OpenAI 호환 API 하나로 100+ 벤더 통합—라우팅·예산·폴백·로그까지.

추론 / 호스팅