OpenAI Parchea Falla en ChatGPT que Permitía la Exfiltración de Datos a través de DNS

OpenAI ha implementado un parche de seguridad crítico en ChatGPT para cerrar una vulnerabilidad que permitía la extracción silenciosa de datos. Investigadores de seguridad descubrieron que, a pesar de los estrictos controles de la plataforma para bloquear el tráfico web saliente y evitar que el modelo de IA se comunique de forma no autorizada con Internet, se había pasado por alto una vía de escape clásica: el tráfico DNS. Esta falla permitía el contrabando de información sensible hacia servidores controlados por atacantes eludiendo las restricciones de la plataforma.


Anatomía del Ataque

La arquitectura de seguridad de ChatGPT está diseñada para que su entorno de ejecución de código sea, en teoría, incapaz de generar solicitudes de red salientes directas. Sin embargo, el vector de ataque explotaba un canal lateral (side channel):

  • Manipulación del Modelo: El atacante provee instrucciones específicas (o un documento/archivo manipulado) a ChatGPT, ordenándole procesar información sensible que el usuario haya subido a la sesión.
  • Abuso del Canal DNS: Dado que el sistema de OpenAI bloqueaba las conexiones HTTP/HTTPS pero no inspeccionaba ni limitaba adecuadamente las consultas de resolución de nombres de dominio (DNS), el atacante podía instruir al modelo para que intentara conectarse a un dominio externo generado dinámicamente.
  • Contrabando de Datos (Data Smuggling): El modelo construía una URL donde la información confidencial se anexaba como un subdominio (por ejemplo, [datos_secretos_codificados].servidor-atacante.com).
  • Ejecución Silenciosa: Al intentar resolver esta dirección DNS para “cumplir” con la instrucción, la infraestructura de OpenAI realizaba una consulta al servidor del atacante, entregándole los datos directamente en el registro de la solicitud. Durante las pruebas de concepto (PoC), al preguntarle a ChatGPT si había transmitido los datos, el modelo alucinaba y respondía con total confianza que no lo había hecho, asegurando que el archivo permanecía “en una ubicación interna segura”.

Impacto

Antes de la corrección, esta vulnerabilidad representaba un riesgo crítico de prevención de pérdida de datos (DLP) para las organizaciones y usuarios que emplean ChatGPT para analizar documentos internos, código fuente, registros financieros o configuraciones. Mediante técnicas de inyección de prompts indirecta (por ejemplo, ocultando instrucciones maliciosas en un archivo PDF que la víctima le pide a ChatGPT que resuma), un atacante podía exfiltrar secretos corporativos directamente a su infraestructura sin disparar alarmas de tráfico web convencional.


Recomendaciones y Mitigación Inmediata

Al tratarse de una vulnerabilidad en el lado del servidor (SaaS), OpenAI ya ha parcheado el fallo implementando controles sobre el tráfico DNS saliente. Sin embargo, las organizaciones deben reforzar sus políticas de seguridad en torno a la IA generativa.

  • Higiene de Datos y Cero Confianza (Zero Trust): Los empleados no deben introducir información altamente clasificada, credenciales, secretos comerciales o información de identificación personal (PII) en herramientas de IA generativa, asumiendo siempre que un error en el entorno de ejecución podría exponer la información.
  • Concienciación sobre Inyección Indirecta: Los equipos de seguridad deben estar al tanto de que los ataques a la IA no siempre provienen del teclado del usuario. Los documentos, correos electrónicos y enlaces analizados por el modelo pueden contener instrucciones ocultas (Indirect Prompt Injection) diseñadas para forzar la exfiltración de datos o manipular las respuestas.
  • Revisión de Arquitectura Interna: Las organizaciones que desarrollan sus propios agentes de IA basados en la API de OpenAI (u otros modelos LLM) deben auditar sus entornos de ejecución aislados (sandboxes) para asegurarse de que todos los canales de salida, incluyendo DNS e ICMP, estén estrictamente controlados o bloqueados por defecto.

Related Post