“99.9% de uptime” es la métrica que aparece en todos los SLA. Y en casi todos los casos, está mal medida. No por mala fe — por convención.

Tres formas que parecen iguales

  1. Ping desde el datacenter: ICMP cada 30 segundos a la IP del servidor. Si responde, “uptime”. Esta es la métrica más común y la menos útil — un servidor responde ping y aun así tiene la app caída.
  2. HTTP GET a /: cada 60 segundos, espera 200. Mejor — al menos confirma que el servidor responde HTTP. Pero su login, su carrito, su API de pagos pueden estar caídos sin que esto lo detecte.
  3. Synthetic transaction: cada 5 minutos, un script ejecuta una transacción real (login, carga de página crítica, una API call). Si falla, está caído. Esta es la única medición que correlaciona con “el usuario puede usar el sistema”.

El sesgo de los 99.9%

99.9% sobre el año son 8h 45min. Si los miden con ping desde el mismo datacenter del servidor, lo van a alcanzar fácil. Si los miden con synthetic transactions desde tres ubicaciones geográficas distintas, ya cuesta más — porque ahora cuentan también la red, el CDN, los proxies.

▸ Lo que hacemos Para clientes con SLA contractual, medimos con synthetics desde 3 puntos (Bogotá, Miami, Madrid) cada 60 segundos. La métrica que reportamos es la peor de los tres. Si en uno solo cae, cuenta. Es más estricto que cualquier SLA que firme con un proveedor — porque es lo que el usuario realmente vive.