2026 年、ローカル推論(Ollama, LM Studio, vLLM など)とクラウド API は共存し、置き換えではなく分担です。
ローカル優先
- ネットに出せない資料(文書・コード・診療メモ)。
- GPU/CPU を維持できるなら 高頻度・低単価のバッチ。
- 遅延最重視で小型モデル可(往復なし)。
クラウド向き
- 最強マルチモーダル・巨大文脈・最新クローズド重量が要る。
- 初期の弾力的な課金。
- 推論運用の人がいない。
ハイブリッド
機密はオンプレ、要約・創作はクラウドなどデータ階層で決める。「全部ローカル/全部クラウド」より現実的です。