Lo que sabemos y lo que debemos hacer ahora
Los líderes tecnológicos se despertaron esta mañana y descubrieron que una actualización de software program del proveedor de ciberseguridad CrowdStrike había salido muy mal, lo que había afectado a los principales sistemas de numerosas organizaciones. El impacto se ha extendido a nivel mundial: aeropuertos, gobiernos, instituciones financieras, hospitales, puertos, centros de transporte y medios de comunicación se enfrentan a importantes interrupciones operativas.
El apagón trae graves consecuencias económicas, además de tener un impacto generalizado en la salud y el bienestar de los afectados. Los servicios de respuesta a emergencias en algunas ciudades se han visto interrumpidos y los hospitales de todo el mundo han tenido que cancelar cirugías programadas. Mientras tanto, las aerolíneas están instando a la gente a no acudir al aeropuerto (American Airways, Delta y United suspendieron sus operaciones por un tiempo).
El viernes por la mañana, CrowdStrike lanzó lo que parecía ser una actualización de software program de rutina para su software program de sensor Falcon (protección de endpoints, XDR y CWP). La actualización provocó que los hosts de Home windows que ejecutaban CrowdStrike Falcon (con su protección contra amenazas basada en kernel) no pudieran iniciarse y se quedaran atascados en una pantalla azul de la muerte. El director ejecutivo de CrowdStrike, George Kurtz, confirmó en una actualización en X esta mañana que “los hosts Mac y Linux no se vieron afectados”.
Debido a la forma en que se ha implementado la actualización, las opciones de recuperación para las máquinas afectadas son manuales y, por lo tanto, limitadas: los administradores deben conectar un teclado físico a cada sistema afectado, iniciar en modo seguro, eliminar la actualización de CrowdStrike comprometida y luego reiniciar (consulte el artículo oficial de la base de conocimientos de CrowdStrike aquí). Algunos administradores también han declarado que no han podido obtener acceso a las claves de cifrado del disco duro de BitLocker para realizar los pasos de reparación. Los administradores deben seguir las instrucciones de CrowdStrike a través de los canales oficiales para solucionar este problema si se ven afectados.
Forrester recomienda que los líderes tecnológicos hagan lo siguiente de inmediato:
Permita que los administradores de sistemas autorizados solucionen los problemas de forma rápida y eficaz. Esto incluye realizar copias de seguridad de las claves de cifrado del disco duro (BitLocker u otro tercero), ya que pueden ser fundamentales para la recuperación en tales casos, así como utilizar soluciones de gestión de identidades privilegiadas para situaciones de emergencia. Comuníquese de forma eficaz y clara. Comuníquese con claridad, tanto interna como externamente, sobre los impactos, el estado y el progreso de sus esfuerzos de remediación. Reclute al equipo de advertising y relaciones públicas para elaborar ese mensaje. Manténgase centrado en los impactos realistas (no en el peor escenario teórico) y mantenga un tono uniforme. Cuide sus espaldas. Los eventos de disaster requieren una respuesta de “todos a bordo”, pero asegúrese de reservar algunos analistas para seguir monitoreando otros sistemas. Los actores de amenazas pueden usar este tiempo para atacar mientras usted está distraído. Preste atención a las estrategias de comunicación del proveedor y siga los consejos oficiales. Siga los canales oficiales para obtener instrucciones sobre cómo abordar los problemas. Seguir los consejos de las redes sociales puede dar como resultado consejos inconsistentes, contradictorios o directamente incorrectos/perjudiciales. Cuide a su gente. Esta interrupción se produjo el viernes por la noche en algunas zonas geográficas, justo cuando la gente se iba a casa para pasar el fin de semana, pero los incidentes tecnológicos como este necesitan el apoyo de muchos empleados, y sus equipos trabajarán las 24 horas del día, los 7 días de la semana durante el fin de semana para recuperarse. Apóyelos asegurándose de que tengan el apoyo adecuado y descansos para evitar el agotamiento y los errores. Comunique claramente los roles, las responsabilidades y las expectativas.
Qué hacer cuando la disaster se calme
Los líderes tecnológicos deben tomar las siguientes medidas una vez que se solucione el problema inmediato:
Implemente la automatización de la infraestructura. La automatización de la infraestructura es imprescindible para las implementaciones de software program controladas y administradas. Si bien una recuperación automatizada no es posible en este caso específico, los líderes tecnológicos deben utilizar la automatización de la infraestructura cuando sea posible para evitar los procedimientos de recuperación guide, junto con el desarrollo de capacidades de reversión y regresión, probándolas con frecuencia para asegurarse de que puede recuperar un estado anterior. Actualice y ensaye su plan de respuesta a interrupciones de TI. La práctica common de planes de respuesta a interrupciones importantes es important, como lo es el requisito de poner en práctica lo aprendido. Los líderes tecnológicos deben desarrollar el plan de respuesta a interrupciones de TI y crear contingencias y protocolos de comunicación para todos los sistemas, servicios y aplicaciones principales, así como todos los procedimientos de recuperación asociados para trabajar con ellos y restaurarlos. Cree y practique un procedimiento de “retroceso” específicamente para actualizaciones que no salen como se planeó para volver a un estado conocido y bueno. Obtenga garantías escritas unificadas de los proveedores de seguridad sobre sus procesos de management de calidad, así como la eficacia de la detección de amenazas. CrowdStrike ofrece una garantía si sufre una infracción mientras usa su plataforma Falcon Full, pero esto es específico para las infracciones de seguridad. Los clientes deben solicitar cláusulas de indemnización por interrupción de la actividad en caso de que una actualización de software program no funcione correctamente, como la precise de CrowdStrike. En el caso del software program que se ejecuta en espacios de confianza con actualizaciones automáticas, especialmente aquellos que afectan o utilizan módulos del núcleo o pueden afectar de alguna otra forma la estabilidad del sistema operativo, esto podría considerarse un paso necesario para recuperar la confianza.
Qué deben hacer los líderes tecnológicos a largo plazo
Los líderes tecnológicos deberían adoptar las siguientes medidas a largo plazo:
Reevalúe la estrategia y el enfoque de gestión de riesgos de terceros. Si un programa de gestión de riesgos de terceros se centra demasiado en el cumplimiento, es possible que pase por alto eventos importantes como este que afectan incluso a los proveedores que cumplen con las normas. Los líderes tecnológicos no pueden darse el lujo de pasar por alto la evaluación del proveedor en relación con múltiples dominios de riesgo, como la continuidad del negocio y la resiliencia operativa, no solo la ciberseguridad. Los líderes tecnológicos también deben mapear su ecosistema de terceros para identificar un riesgo de concentración significativo entre los proveedores, especialmente aquellos que respaldan sistemas o procesos críticos. Utilice el contrato como una herramienta de mitigación de riesgos. Los líderes tecnológicos junto con los equipos de adquisiciones y legales deben actualizar el lenguaje para incluir nuevas cláusulas de seguridad y riesgo que asignen responsabilidad durante eventos disruptivos y describan claramente los plazos para que los proveedores apliquen parches y remedien. Considere utilizar dichos incidentes y sus impactos como base para implementar medidas en contratos o acuerdos de nivel de servicio. Si los proveedores se resisten, deberá considerar si el precio que negoció todavía tiene sentido y, posiblemente, si hacer negocios con ellos.
Si bien Forrester no es una empresa de soporte técnico, los analistas están disponibles para ayudarlo a navegar esta disaster y sus repercusiones a largo plazo. Los clientes de Forrester pueden solicitar una consulta o una sesión de orientación para analizar cualquiera de los temas anteriores.