Категория
LLM inference & hosting — aggregators, low-latency hardware, pricing
Token-metered inference services, aggregator gateways, custom-silicon providers, and serverless GPU platforms at a glance.
This is the feeder line for apps that don’t want to babysit GPUs. Compare **unit price** (token or second), **tail latency** (P95 on the same model), **model catalog**, **data routing**, and **OpenAI-compatible endpoints**. Ultra-low-latency use cases (voice agents, interactive IDEs) look at Groq/Cerebras/SambaNova. Multi-vendor experimenting leans on OpenRouter/LiteLLM. Custom weights land on Replicate/Modal/Baseten/Together/Fireworks.
Редакторское / GSC
Aggregator gateways vs direct vendor contracts
Gateways win on speed-of-switch and A/B pricing; they lose on extra data hop and longer SLA chain. Critical enterprise paths usually graduate to direct contracts.
Are Groq and Cerebras actually cheaper than GPU clouds?
On latency-sensitive loads the $/token and tail-latency curve are often better, but model catalog and burst quotas are narrower—load test with real traffic before cutover.
Where do I deploy a fine-tuned model?
Replicate, Modal, Baseten, Together, and Fireworks all offer custom weights with metered billing. Watch cold-start tail latency and how reserved hardware is billed.
Инструменты в категории
Подробности и ссылки на официальные сайты — на карточке; смотрите связанные записи в категории.
Groq: популярный AI‑продукт — функции, цены, регионы, обработка данных и модели смотрите на официальном сайте.
Replicate: популярный AI‑продукт — функции, цены, регионы, обработка данных и модели смотрите на официальном сайте.
fal: популярный AI‑продукт — функции, цены, регионы, обработка данных и модели смотрите на официальном сайте.
Together AI: популярный AI‑продукт — функции, цены, регионы, обработка данных и модели смотрите на официальном сайте.
Fireworks AI: популярный AI‑продукт — функции, цены, регионы, обработка данных и модели смотрите на официальном сайте.
OpenRouter: популярный AI‑продукт — функции, цены, регионы, обработка данных и модели смотрите на официальном сайте.
硅基流动 SiliconFlow: популярный AI‑продукт — функции, цены, регионы, обработка данных и модели смотрите на официальном сайте.
Инференс Cerebras на чипах wafer-scale с заявленной экстремальной пропускной способностью по известным OSS LLM; модели сверяйте на сайте.
SambaNova Cloud: популярный AI‑продукт — функции, цены, регионы, обработка данных и модели смотрите на официальном сайте.
Baseten: популярный AI‑продукт — функции, цены, регионы, обработка данных и модели смотрите на официальном сайте.
Modal: популярный AI‑продукт — функции, цены, регионы, обработка данных и модели смотрите на официальном сайте.
OSS прокси-шлюз для 100+ провайдеров LLM через единый OpenAI-совместимый API: маршрутизация, бюджеты, fallback и логи.