Whisper Leak: el nuevo ataque de canal lateral que compromete la privacidad en modelos de lenguaje

Microsoft reveló una nueva variante de ataque de canal lateral que afecta a modelos de lenguaje accesibles de forma remota. Este método, bautizado informalmente por los investigadores como Whisper Leak, permite a un atacante observar patrones en el tráfico cifrado de un chatbot y deducir el tema general de la conversación aunque esté protegido por Transport Layer Security (TLS).
La compañía trabajó con varios proveedores para mitigar el riesgo y confirmó que sus propios frameworks ya cuentan con protecciones activas.

Por qué importa la confidencialidad en modelos de lenguaje

La adopción masiva de asistentes basados en IA transformó la forma en que organizaciones y usuarios interactúan con información sensible. Hoy, estos sistemas participan en consultas de salud, asesoría legal, procesos internos corporativos, reportes de incidentes y conversaciones personales.
Sin privacidad sólida, la confianza se debilita y los usuarios pueden verse expuestos a riesgos o autocensura. Microsoft recuerda que la seguridad en estos entornos depende de encriptación robusta, anonimización adecuada y políticas estrictas de retención de datos.

Cómo surge la vulnerabilidad: streaming, tamaños de paquetes y tiempos de llegada

La naturaleza del streaming en LLMs

Los modelos de lenguaje generan texto de manera autoregresiva, un token a la vez. Para evitar esperas largas, los proveedores suelen enviar la respuesta en modo streaming, dividiéndola en pequeñas porciones.
Esto crea un patrón único de tráfico: ráfagas de paquetes con tiempos y tamaños específicos según el contenido generado.

Cifrado simétrico y metadatos inevitables

Aunque TLS cifra el contenido, el tamaño del ciphertext suele ser proporcional al tamaño del plaintext, especialmente cuando se emplean cifrados en modo stream como ChaCha20 o AES-GCM.
Es justamente esa filtración colateral (tamaños y tiempos, no contenido) lo que habilita el ataque.

El ataque Whisper Leak: inferir temas a partir de tráfico cifrado

Microsoft evaluó investigaciones previas de universidades y laboratorios que ya apuntaban a vulnerabilidades en modelos de lenguaje:

Side-channel por longitud de tokens (Weiss et al., 2024)
Ataques remotos por temporización ligados a técnicas como speculative decoding (Carlini y Nasr, 2024)
Fugas por conteo total de tokens generados (Zhang, Saileshwar y Lie, 2024)
Variaciones temporales por cache sharing en servicios LLM (Zheng et al., 2024)

Bajo esa línea, la hipótesis fue clara: los patrones de tamaño de paquetes y tiempos entre envíos contienen huellas suficientes para clasificar el tema del prompt.

Para probarlo, el equipo de Microsoft entrenó clasificadores con tráfico real generado por un modelo, comparando preguntas sobre “legalidad del lavado de dinero” contra miles de consultas aleatorias. El análisis incluyó modelos LightGBM, Bi-LSTM y BERT adaptado para secuencias de tamaños y tiempos.

Los resultados fueron contundentes:
muchos modelos superaron el 98% de efectividad en identificar correctamente si un usuario consultaba sobre el tema sensible.

Qué significa esto para usuarios y organizaciones

Microsoft simuló un escenario realista: un atacante monitorea 10,000 conversaciones, donde apenas una toca un tema sensible.
Aun así, varios modelos permitieron un 100% de precisión, capturando entre 5% y 50% de las conversaciones sensibles sin generar falsos positivos.

En la práctica, esto significa que un observador ubicado en:

un ISP,
una red Wi-Fi compartida,
un nodo de infraestructura intermedio,

podría detectar cuándo un usuario consulta sobre temas políticamente delicados, periodistas en riesgo, protestas, actividades ilegales o contenido prohibido en su país.

Microsoft aclara que se trata de un riesgo base: con más datos, modelos más sofisticados y tráfico de conversaciones prolongadas, la precisión del ataque podría mejorar aún más.

Mitigaciones: respuesta coordinada en la industria

La investigación fue divulgada de forma responsable y permitió que los principales proveedores implementaran defensas:

OpenAI y Microsoft Azure

Agregaron un campo de obfuscación en las respuestas streaming, introduciendo texto aleatorio de longitud variable para romper las correlaciones entre token-size y packet-size.
Microsoft confirmó que esta mitigación reduce el ataque a niveles no prácticos.

Mistral

Incluyó un parámetro denominado “p”, con efecto similar al mecanismo de obfuscación.

Otros proveedores

xAI y otros actores coordinados en el proceso también aplicaron protecciones.

Esta reacción conjunta refuerza la prioridad que la industria está dando a la privacidad en servicios de IA.

Recomendaciones para usuarios

Aunque la mitigación recae principalmente sobre los proveedores, Microsoft sugiere algunas prácticas para usuarios y organizaciones:

Evitar discutir temas altamente sensibles en redes no confiables.
Utilizar VPN para añadir una capa de protección sobre el tráfico.
Preferir servicios que ya implementaron mecanismos de mitigación.
Optar por modelos sin streaming cuando sea posible.
Revisar periódicamente las prácticas de seguridad del proveedor.

Conclusión: la privacidad en IA entra en una nueva era

Whisper Leak expone una realidad incómoda: incluso con cifrado robusto, los metadatos del tráfico pueden revelar más de lo que pensamos.
La industria respondió rápido, pero el hallazgo marca un punto de inflexión en cómo debemos evaluar la privacidad de modelos de lenguaje a escala global.