カテゴリ

LLM inference & hosting — aggregators, low-latency hardware, pricing

Token-metered inference services, aggregator gateways, custom-silicon providers, and serverless GPU platforms at a glance.

This is the feeder line for apps that don’t want to babysit GPUs. Compare **unit price** (token or second), **tail latency** (P95 on the same model), **model catalog**, **data routing**, and **OpenAI-compatible endpoints**. Ultra-low-latency use cases (voice agents, interactive IDEs) look at Groq/Cerebras/SambaNova. Multi-vendor experimenting leans on OpenRouter/LiteLLM. Custom weights land on Replicate/Modal/Baseten/Together/Fireworks.

編集用 / GSC 追記欄

Aggregator gateways vs direct vendor contracts

Gateways win on speed-of-switch and A/B pricing; they lose on extra data hop and longer SLA chain. Critical enterprise paths usually graduate to direct contracts.

Are Groq and Cerebras actually cheaper than GPU clouds?

On latency-sensitive loads the $/token and tail-latency curve are often better, but model catalog and burst quotas are narrower—load test with real traffic before cutover.

Where do I deploy a fine-tuned model?

Replicate, Modal, Baseten, Together, and Fireworks all offer custom weights with metered billing. Watch cold-start tail latency and how reserved hardware is billed.

このカテゴリのツール

概要と公式リンクは各ツール詳細へ。カテゴリ内の関連ピックも参照してください。

Groq

Groq: 人気のAI製品です。機能・料金・対応地域・データ取り扱い・最新モデルは公式サイトで確認してください。

推論 / ホスティング
Replicate

Replicate: 人気のAI製品です。機能・料金・対応地域・データ取り扱い・最新モデルは公式サイトで確認してください。

推論 / ホスティング
fal

fal: 人気のAI製品です。機能・料金・対応地域・データ取り扱い・最新モデルは公式サイトで確認してください。

推論 / ホスティング
Together AI

Together AI: 人気のAI製品です。機能・料金・対応地域・データ取り扱い・最新モデルは公式サイトで確認してください。

推論 / ホスティング
Fireworks AI

Fireworks AI: 人気のAI製品です。機能・料金・対応地域・データ取り扱い・最新モデルは公式サイトで確認してください。

推論 / ホスティング
OpenRouter

OpenRouter: 人気のAI製品です。機能・料金・対応地域・データ取り扱い・最新モデルは公式サイトで確認してください。

推論 / ホスティング
硅基流动 SiliconFlow

硅基流动 SiliconFlow: 人気のAI製品です。機能・料金・対応地域・データ取り扱い・最新モデルは公式サイトで確認してください。

推論 / ホスティング
Cerebras Inference

Cerebras ウェハースケールの推論。主要OSS LLMで極速のトークン吞吐。対話型用途に最適、モデル一覧は公式で確認。

推論 / ホスティング
SambaNova Cloud

SambaNova Cloud: 人気のAI製品です。機能・料金・対応地域・データ取り扱い・最新モデルは公式サイトで確認してください。

推論 / ホスティング
Baseten

Baseten: 人気のAI製品です。機能・料金・対応地域・データ取り扱い・最新モデルは公式サイトで確認してください。

推論 / ホスティング
Modal

Modal: 人気のAI製品です。機能・料金・対応地域・データ取り扱い・最新モデルは公式サイトで確認してください。

推論 / ホスティング
LiteLLM

OSS の LLM 代理ゲートウェイ。OpenAI 互換 API 一本で百超のベンダを統合、ルーティング/予算/フォールバック/ログまで。

推論 / ホスティング