分類

LLM inference & hosting — aggregators, low-latency hardware, pricing

Token-metered inference services, aggregator gateways, custom-silicon providers, and serverless GPU platforms at a glance.

This is the feeder line for apps that don’t want to babysit GPUs. Compare **unit price** (token or second), **tail latency** (P95 on the same model), **model catalog**, **data routing**, and **OpenAI-compatible endpoints**. Ultra-low-latency use cases (voice agents, interactive IDEs) look at Groq/Cerebras/SambaNova. Multi-vendor experimenting leans on OpenRouter/LiteLLM. Custom weights land on Replicate/Modal/Baseten/Together/Fireworks.

檢索與補充說明

Aggregator gateways vs direct vendor contracts

Gateways win on speed-of-switch and A/B pricing; they lose on extra data hop and longer SLA chain. Critical enterprise paths usually graduate to direct contracts.

Are Groq and Cerebras actually cheaper than GPU clouds?

On latency-sensitive loads the $/token and tail-latency curve are often better, but model catalog and burst quotas are narrower—load test with real traffic before cutover.

Where do I deploy a fine-tuned model?

Replicate, Modal, Baseten, Together, and Fireworks all offer custom weights with metered billing. Watch cold-start tail latency and how reserved hardware is billed.

本類工具

簡介與官網以各工具詳情頁為準;可在同類條目間交叉瀏覽。

Groq

Groq:常見的 AI 產品——功能、價格、支援地區、資料處理與最新模型,請以官網說明為準。

推論 / 託管
Replicate

Replicate:常見的 AI 產品——功能、價格、支援地區、資料處理與最新模型,請以官網說明為準。

推論 / 託管
fal

fal:常見的 AI 產品——功能、價格、支援地區、資料處理與最新模型,請以官網說明為準。

推論 / 託管
Together AI

Together AI:常見的 AI 產品——功能、價格、支援地區、資料處理與最新模型,請以官網說明為準。

推論 / 託管
Fireworks AI

Fireworks AI:常見的 AI 產品——功能、價格、支援地區、資料處理與最新模型,請以官網說明為準。

推論 / 託管
OpenRouter

OpenRouter:常見的 AI 產品——功能、價格、支援地區、資料處理與最新模型,請以官網說明為準。

推論 / 託管
硅基流动 SiliconFlow

硅基流动 SiliconFlow:常見的 AI 產品——功能、價格、支援地區、資料處理與最新模型,請以官網說明為準。

推論 / 託管
Cerebras Inference

Cerebras 晶圓級推論服務,對主流開源 LLM 宣稱極速 token 吞吐;延遲敏感互動型應用首選,模型清單以官網為準。

推論 / 託管
SambaNova Cloud

SambaNova Cloud:常見的 AI 產品——功能、價格、支援地區、資料處理與最新模型,請以官網說明為準。

推論 / 託管
Baseten

Baseten:常見的 AI 產品——功能、價格、支援地區、資料處理與最新模型,請以官網說明為準。

推論 / 託管
Modal

Modal:常見的 AI 產品——功能、價格、支援地區、資料處理與最新模型,請以官網說明為準。

推論 / 託管
LiteLLM

開源 LLM 聚合代理:以單一 OpenAI 相容 API 接上百家供應商,支援路由、預算、fallback 與日誌,不必重造基礎設施。

推論 / 託管