La dependencia hacia los servicios web de Amazon ha provocado que en varias ocasiones diversos sitios web experimenten fallas, como la del martes pasado: el área correspondiente a Estados Unidos (US-EAST-1), de la que dependen portales y servicios web importantes, sufrió una caída y hasta ahora no se sabía la razón.
A través de su página web, Amazon Web Services explicó el por qué de su caída al inicio de la semana, un evento previsto que desafortunadamente fue inoportuno para la compañía.
Con la única intención de depurar un problema que provocaba un funcionamiento lento del sistema de facturación de Amazon Simple Storage Service (S3), uno de los trabajadores escribiría un comando que debía eliminar un pequeño número de servidores de un subsistema utilizado para la facturación de S3.
Hasta entonces nada más había ocurrido en la mañana del martes 28 de febrero, pero el problema fue que una de las entradas del comando estaba mal escrita, lo que provocó la eliminación de un número mayor de servidores, entre ellos algunos que sustentan el funcionamiento de dos subsistemas de S3.
El subsistema índice fue uno de los afectados, cuya tarea es gestionar los metadatos y ubicar las dependencias hacia S3. Para mayor desgracia, el otro subsistema afectado es el de colocación, el cual requiere que el primero funcione correctamente para realizar tareas de gestión de almacenamiento.
Debido al mal funcionamiento de ambos subsistemas, resultando en la eliminación de la capacidad de S3, se requirió un reinicio que tomó varias horas para completarse, en algunos casos más de lo previsto.
Amazon tenía previsto particionar el subsistema índice para evitar inconvenientes de este tipo a gran escala, aunque lo haría a finales de este año. Por lo tanto este suceso fue inoportuno y le han dado mayor prioridad al particionamiento, como parte de un aprendizaje que al parecer nunca terminará.
Sígannos y comenten en Facebook.