En enero de 2025, Microsoft lanzó una actualización crítica para Windows Server 2022 que resolvía un fallo relacionado con el arranque de dispositivos en servidores con arquitectura NUMA (Non-Uniform Memory Access). La falla había dejado a muchos servidores incapaces de iniciar correctamente, interrumpiendo operaciones en entornos de producción. Administradores de TI rápidamente informaron sobre el problema tras aplicar ciertos ajustes que desencadenaron esta falla.
¿Cuál fue la causa?
El error inicial fue causado por la actualización de seguridad KB5042881 lanzada en septiembre de 2024, que incluía varios arreglos, pero uno de ellos alteró cómo se gestionaban los recursos de memoria en servidores con arquitectura NUMA. Esta arquitectura es común en servidores de alto rendimiento, donde varios procesadores acceden a diferentes bloques de memoria de manera no uniforme.
La memoria en sistemas NUMA: Utiliza múltiples procesadores, el manejo adecuado de la memoria es esencial para asegurar un rendimiento eficiente. Si el sistema operativo no distribuye correctamente las tareas entre los distintos núcleos y bloques de memoria, se pueden generar errores, como el fallo de arranque experimentado. La actualización de septiembre de 2024 modificó la distribución de los recursos de memoria, lo que provocó que el sistema operativo no pudiera gestionar correctamente el acceso a la memoria distribuida entre los distintos procesadores, resultando en un fallo crítico.
Impacto causado
El impacto de este error fue considerable. No afectó únicamente a un pequeño grupo de servidores, sino que tocó múltiples industrias, interrumpiendo servicios clave y aumentando los tiempos de inactividad. Los sistemas que dependían de un inicio rápido y constante, como aquellos en empresas de servicios críticos, se vieron forzados a enfrentar largos períodos sin funcionamiento. Esto retrasó procesos esenciales y afectó la productividad general de las organizaciones involucradas.
La solución propuesta
Para abordar este fallo, Microsoft lanzó una actualización adicional en enero de 2025. Esta actualización fue diseñada específicamente para corregir el error de arranque que había afectado a los servidores tras la instalación de la actualización de septiembre. Al aplicar esta nueva actualización, los servidores afectados pudieron reiniciar correctamente, restaurando la estabilidad en las operaciones y minimizando el impacto en los entornos de producción.
Recomendaciones
- Monitorea constantemente los dispositivos después de realizar actualizaciones importantes para detectar rápidamente cualquier error o fallo en el sistema.
- Mantén copias de seguridad regulares de toda la configuración y los datos críticos de tus servidores antes de aplicar actualizaciones significativas.
- Implementa un sistema de alertas que te avise de problemas relacionados con la memoria o el arranque, especialmente en servidores que usan arquitecturas como NUMA, para prevenir futuros incidentes.
- Instala las actualizaciones recomendadas de manera oportuna, pero asegúrate de probarlas primero en un entorno de prueba para evitar afectaciones a producción.