En 2026 inferencia local y APIs cloud conviven; no se reemplazan, se reparten casos.
Local primero
- Material que no debe salir a la red.
- Alto volumen y bajo coste si mantienes GPU/CPU.
- Latencia crítica con modelos más pequeños.
Nube
- Top multimodal, contexto enorme o pesos cerrados recientes.
- Uso elástico al inicio.
- Sin equipo de operaciones de inferencia.
Híbrido
Prep sensible on‑prem; síntesis y creatividad en la nube. Clasifica datos, no “todo local o todo nube”.