El hecho de que un fallo tipográfico haya provocado esta reacción en cadena, que ha supuesto pérdidas de más de 140 millones de euros a los clientes, demuestra que Amazon no construyó bien su sistema

Antes de subir los datos a la nube, la gente quiere asegurarse de que este invisible repositorio digital está bien construido. Y Amazon, que es el mayor proveedor de servicios cloud del mundo, acaba de demostrar que su capacidad de construir una nube segura deja bastante que desear.

El pasado martes, grandes regiones de internet simplemente dejaron de funcionar. Slack no permitía que los usuarios se comunicaran con sus compañeros, Trello no dejaba gestionar proyectos y, tristemente, resultó imposible acceder a las noticias de la web de la edición global de nuestra revista. Además, algunos dispositivos inteligentes del hogar también dejaron de funcionar correctamente.

El motivo: un fallo en el sistema de almacenamiento en la nube S3 de Amazon. Y dado que es el mayor proveedor de computación en la nube del mundo, muchos servicios que dependen de ella también se vieron afectados. El error no ha sido nada desdeñable ya que el problema tardó más de cuatro horas en arreglarse.

Resulta difícil cuantificar con precisión el coste real de una caída de servicio como esta. Pero, según el The Wall Street Journal, la empresa de analítica Cyence estima que ha supuesto pérdidas de más de 140 millones de euros a las empresas de la lista S&P 500. Y la compañía de monitorización de tráfico Apica afirma que 54 de los 100 minoristas digitales líderes experimentaron un declive de rendimiento de página de al menos un 20%. Así que no se puede negar que ha sido caro.

Eso hace que la causa del problema resulte aún más vergonzosa. En un comunicado que describió el fallo, Amazon reconoce que la causa principal fue un comando incorrecto ejecutado por un empleado en Virginia (EEUU) durante sus labores rutinarias de mantenimiento. Desafortunadamente, este pequeño error provocó una catastrófica cascada de acontecimientos.

El empleado tenía que desconectar un pequeño número de servidores, pero cometió un error y deshabilitó más de los debidos, incluidos dos que se utilizan para alimentar procesos básicos del todo el sistema. El error, básicamente, impidió que las instalaciones procesaran solicitudes de usuario.

Amazon trabaja con múltiples “zonas de la nube” repartidas por el mundo, y los clientes de sus servicios pueden almacenar ficheros y ejecutar código en más de una. Pero es más caro y, como señala The Register, incluso las empresas que sí se lo pueden permitir sufrieron fallos en sus sistemas, probablemente a causa de una falta de capacidad.

En otro artículo describimos los riesgos inherentes de los servicios web centralizados. Ante esta concentración de funciones “la seguridad, la fiabilidad y la profesionalidad” resultan vitales y desde luego este no ha sido el caso (ver Millones de personas con un único servicio web (mal construido), colapso seguro).

Amazon parece estar de acuerdo. La compañía ya ha implementado medidas de seguridad para que incidentes causados por la torpeza de un único empleado no vuelvan a provocar una deshabilitación masiva tan inmediata como esta.

Es un comienzo. Pero está claro que los servicios basados en la nube necesitan pólizas de seguros adicionales si pretenden ser fiables. Amazon, por ejemplo, no debería haber permitido que un solo fallo afectara a todas sus instalaciones de Virginia, ya que deberían haber estado divididas en subsistemas independientes.

Incluso así, los servicios web centralizados resultan vulnerables. Si un hacker dirigiese un enorme ataque a un proveedor, por ejemplo con una botnet, podría volver a desestabilizar grandes regiones de internet. Pero al menos la culpa no la tendría un simple error tipográfico.

Fuente: MIT Technology Review

Anuncios