Se ha emitido un boletín de seguridad de máxima prioridad tras el descubrimiento de una vulnerabilidad crítica, denominada “Bleeding Llama” (CVE-2026-7482, con una puntuación CVSS de 9.1), en Ollama, el framework de código abierto más popular para la ejecución local de Grandes Modelos de Lenguaje (LLMs). La falla permite a un atacante remoto y no autenticado ejecutar una lectura fuera de límites (out-of-bounds read), resultando en la exfiltración completa de la memoria del proceso del servidor. Con estimaciones que apuntan a más de 300,000 servidores expuestos a nivel global, este incidente subraya un riesgo estructural grave para las organizaciones que despliegan infraestructuras de inferencia de IA no aisladas.
Anatomía del Ataque (Exfiltración Silenciosa)
La vulnerabilidad radica en la tubería de cuantización de modelos del sistema y se ejecuta de manera fluida y automatizable a través de tres llamadas directas a la API:
- Inyección de Archivo Malicioso: El atacante envía un archivo de modelo en formato GGUF manipulado hacia el servidor, declarando de manera intencional un tamaño de tensor o dimensionalidad exagerada, muy superior a los datos reales adjuntos.
- Sobrescritura y Lectura del Montón (Heap): Al invocar el endpoint de creación de modelo (/api/create), el sistema intenta procesar el archivo. Debido a la ausencia de validaciones de límites en el código subyacente, Ollama lee más allá del búfer asignado, rellenando la estructura del nuevo modelo con datos aleatorios pero críticos extraídos directamente de la memoria del montón (heap) del proceso en ejecución.
- Extracción Controlada: Finalmente, el atacante utiliza el endpoint /api/push para enviar el modelo recién creado —el cual ahora contiene toda la memoria filtrada como carga útil— hacia un repositorio o servidor externo bajo su control.
Impacto (Riesgo Estratégico y Brecha de Confidencialidad)
Desde una perspectiva de inteligencia de amenazas, la criticidad de esta falla no radica en la denegación de servicio, sino en el compromiso absoluto de la confidencialidad de la capa de datos de la IA corporativa:
- Fuga de Secretos Corporativos: La memoria del proceso de Ollama almacena en texto plano elementos de altísimo valor estratégico, como prompts del sistema (System Prompts) que definen la lógica de la empresa, llaves de API incrustadas, tokens de acceso y variables de entorno del servidor anfitrión.
- Violación de Privacidad de Usuarios: El volcado de memoria incluye el historial de chat y las peticiones en tiempo real de otros usuarios paralelos en la misma instancia, exponiendo potencialmente código propietario, contratos legales o información de identificación personal (PII) que los analistas hayan ingresado al modelo para su revisión.
- Superficie de Exposición por Defecto: Ollama no cuenta con autenticación por defecto y escucha activamente en todas las interfaces de red (0.0.0.0), convirtiéndolo en un blanco trivial para escáneres de Corredores de Acceso Inicial (IABs) y botnets.
Recomendaciones y Mitigación
Para salvaguardar la integridad de las infraestructuras de Inteligencia Artificial empresariales y los entornos de desarrollo descentralizados, los equipos de operaciones y seguridad deben aplicar las siguientes medidas de contención:
- Parcheo Inmediato (Mitigación Principal): Actualizar de forma urgente todas las instancias físicas, contenedores de Docker y servidores virtuales que ejecuten Ollama a la versión 0.17.1 o superior. Este parche introduce las validaciones aritméticas y comprobaciones de contorno necesarias en el código subyacente para contrastar los elementos del tensor con los tamaños reales del búfer.
- Aislamiento de Red (Arquitectura Zero Trust): Jamás se debe exponer el puerto de Ollama (típicamente el 11434) directamente a la Internet pública o a segmentos de red corporativos planos. La interfaz de la API debe operar estrictamente en bucle local (localhost) o estar resguardada detrás de un proxy inverso robusto y un Firewall de Aplicaciones Web (WAF) que impongan políticas de autorización férreas (como mTLS o validación de JWT).
Rotación Preventiva de Credenciales: Debido a que este ataque de extracción de memoria ocurre a nivel de API y puede no generar alarmas heurísticas tradicionales, se debe asumir la posibilidad de compromiso si la instancia estuvo expuesta. Es mandatorio realizar una auditoría y rotación inmediata de cualquier llave de API (por ejemplo, credenciales de AWS, bases de datos vectoriales u otros servicios de IA) que estuviera configurada en las variables de entorno del servidor afectado.




