Las tablas motivan, pero un producto arranca con tres cosas.

1. ¿Razonamiento o recuperación?

Razonamiento duro favorece stacks específicos; RAG masivo depende más de embeddings y tubería.

2. ¿Cuánto texto crudo por turno?

Contratos largos exigen ventana y $/token. A veces «resume y luego pregunta» gana.

3. ¿Precio del error?

Salud, finanzas, seguridad pública — puerta humana y límites documentados. Un modelo fuerte no borra responsabilidad.

Los rankings informan; escenario y riesgo deciden.