Todos nos enteramos del desastre o en buena medida incluso fuimos víctimas directas o indirectas del mismo. El 19 de julio de 2024, una actualización defectuosa del software de seguridad Falcon de CrowdStrike provocó un apagón global y un maremoto de pantallas azules en Windows que afectó a millones de computadoras personales a lo largo de todo el planeta.
Este incidente puso de relieve la fragilidad de los sistemas interdependientes y la necesidad de implementar medidas de seguridad más robustas para evitar que una simple y aparentemente inofensiva actualización termine colapsando sistemas completos al grado que lo hicieron.
Ahora, una vez un poco pasada la tormenta comenzaron a surgir detalles jugosos sobre el orden en el que sucedió todo y debemos decirles que hay material suficiente como para montar una película al más puro estilo de The Social Network.
Crónica del error de Crowdstrike y Microsoft que casi nos regresa al siglo pasado
Los amigos de The Verge han publicado un jugoso y vertiginoso artículo en donde nos marcan una crónica imperdible de prácticamente la primera hora y media en la que surgió el problema cuyas consecuencias muchos conocen, pero pocos saben cómo empezó todo.
A grandes rasgos, el 19 de julio de 2024, una actualización defectuosa del software de seguridad Falcon de CrowdStrike provocó este apagón global de Windows que afectó a millones de computadoras en todo el mundo. Hubo interrupciones generalizadas en empresas, instituciones financieras y agencias gubernamentales, lo que generó un caos y pérdidas económicas significativas. Pero el orden original de todo ese día fue más o menos este:
- 12:09 AM ET: CrowdStrike lanza la actualización defectuosa del software Falcon.
- Poco después de la medianoche: Los problemas comienzan a manifestarse en todo el mundo, con usuarios que informan bloqueos repentinos del sistema y mensajes de la Pantalla Azul de la Muerte (BSOD), pero nadie sabía qué lo provocaba.
- Primeras horas de la mañana: Se identifica que de hecho la causa del problema es la actualización de CrowdStrike.
- 1:37 AM ET: CrowdStrike lanza una solución provisional para la actualización que provocó el caos.
- 2:00 AM ET en adelante: Los administradores de TI trabajan para restaurar los sistemas afectados, lo que lleva a reinicios generalizados y a la pérdida de productividad.
Si bien la actualización defectuosa de CrowdStrike fue la causa inmediata del apagón, Microsoft también comparte cierta responsabilidad. Ya que el diseño de Windows permite que los controladores de terceros, como el software Falcon, tengan acceso al kernel del sistema operativo, lo que les otorga un alto nivel de control y potencialmente puede provocar fallas catastróficas.
Por qué Crowdstrike pudo fastidiar a Microsoft y Windows a nivel global
Como bien lo marca el artículo de The Verge, el programa Falcon de CrowdStrike opera en Windows a nivel de kernel, que no es otra cosa más que la parte central del sistema operativo que tiene acceso ilimitado a la memoria y al hardware del sistema.
La mayoría del software para PC se ejecuta en el nivel de modo de usuario y no necesitan ni obtienen acceso especial al kernel. Pero los programas de CrowdStrike sí utilizan un controlador especial que les permite ejecutarse a un nivel inferior al de la mayoría.
La ejecución en el kernel de Falcon hace que el software sea más capaz como línea de defensa, pero también puede causar estos problemas:
“Eso puede ser muy problemático, porque cuando llega una actualización que no está formateada de la manera correcta o tiene algunas malformaciones, el conductor puede ingerirla y confiar ciegamente en esos datos.”
Es lo que señala Patrick Wardle, director ejecutivo de DoubleYou y fundador de la Fundación Objective-See, encerrando la clave de todo el conflicto.
Al final este incidente nos marca claramente cómo Microsoft necesita procesos y filtros mucho más específicos para poder prevenir este tipo de incidentes.
En todo caso es un hecho que eran necesarias más pruebas internas antes de liberar esa actualización.