En 2026 inferencia local y APIs cloud conviven; no se reemplazan, se reparten casos.

Local primero

  • Material que no debe salir a la red.
  • Alto volumen y bajo coste si mantienes GPU/CPU.
  • Latencia crítica con modelos más pequeños.

Nube

  • Top multimodal, contexto enorme o pesos cerrados recientes.
  • Uso elástico al inicio.
  • Sin equipo de operaciones de inferencia.

Híbrido

Prep sensible on‑prem; síntesis y creatividad en la nube. Clasifica datos, no “todo local o todo nube”.