2026 年、ローカル推論(Ollama, LM Studio, vLLM など)とクラウド API は共存し、置き換えではなく分担です。

ローカル優先

  • ネットに出せない資料(文書・コード・診療メモ)。
  • GPU/CPU を維持できるなら 高頻度・低単価のバッチ。
  • 遅延最重視で小型モデル可(往復なし)。

クラウド向き

  • 最強マルチモーダル・巨大文脈・最新クローズド重量が要る。
  • 初期の弾力的な課金
  • 推論運用の人がいない。

ハイブリッド

機密はオンプレ、要約・創作はクラウドなどデータ階層で決める。「全部ローカル/全部クラウド」より現実的です。