Investigadores descubren que las inyecciones de prompts ocultas en los comentarios de GitHub podían obligar al asistente de IA a exfiltrar credenciales críticas de los entornos de Codespaces.
Los asistentes de Inteligencia Artificial están diseñados para ayudar a los programadores, pero ¿qué pasa cuando alguien más les da órdenes en secreto? Hoy 24 de febrero de 2026, los detalles de RoguePilot, una fascinante y peligrosa vulnerabilidad (ya parcheada por Microsoft) que transformó a GitHub Copilot en un espía corporativo involuntario.
La vulnerabilidad es un ejemplo de libro de texto de un ataque a la cadena de suministro mediado por IA, basado en una técnica conocida como inyección pasiva (o indirecta) de prompts.
¿Cómo funcionaba el engaño?
El vector de ataque es sorprendentemente simple y se aprovecha de los flujos de trabajo de confianza de los desarrolladores.
- La Trampa (El Issue): Un atacante crea un “Issue” (problema o reporte de error) aparentemente normal en un repositorio público de GitHub.
- La Orden Oculta: Dentro de la descripción del Issue, el atacante esconde instrucciones maliciosas utilizando etiquetas de comentarios HTML invisibles, por ejemplo: “. Como es un comentario HTML, el desarrollador humano que lee el Issue no ve absolutamente nada raro.
- El Disparador (Codespaces): El desarrollador, confiando en el reporte, decide investigar y lanza un entorno de desarrollo en la nube (GitHub Codespaces) directamente desde ese Issue.
- La Inyección: Por diseño, cuando un Codespace se abre desde un Issue, el entorno alimenta automáticamente a GitHub Copilot con el texto de la descripción para darle “contexto”. Copilot lee el comentario HTML oculto y asume que es una instrucción legítima.
El Robo del GITHUB_TOKEN
Una vez que Copilot es “hipnotizado” por la orden oculta, ejecuta acciones en segundo plano. El prompt malicioso ordenaba a Copilot revisar un Pull Request manipulado que contenía un enlace simbólico a un archivo interno del sistema. Al leer ese archivo, la IA extraía el GITHUB_TOKEN (una credencial de alto privilegio que permite el control sobre el repositorio) y lo exfiltraba a un servidor remoto controlado por el atacante utilizando un esquema JSON remoto.
Todo esto ocurría de forma totalmente silenciosa. El desarrollador solo veía su entorno de código cargándose normalmente, mientras que la IA le entregaba las llaves del proyecto al cibercriminal.
Bienvenidos a la era del “Promptware”
El caso de RoguePilot coincide con una advertencia severa de la comunidad de investigación cibernética. Los ciberataques han evolucionado más allá de la manipulación tradicional de entradas (como el SQL Injection) hacia lo que ahora se denomina “Promptware”.
El Promptware es esencialmente malware escrito en lenguaje natural. Son prompts polimórficos diseñados para explotar el contexto, los permisos y las funcionalidades de las aplicaciones impulsadas por Modelos de Lenguaje Grande (LLMs). En lugar de enviar un archivo ejecutable, el atacante envía un párrafo de texto que, al ser leído por la IA, desencadena robo de datos, escalada de privilegios o movimientos laterales dentro de la red corporativa.
Lección de seguridad: Aunque Microsoft ya parcheó esta vía de ataque específica en GitHub, el incidente demuestra que cualquier sistema de IA que procese texto no confiable proveniente de internet debe ser tratado bajo arquitecturas de “Confianza Cero” (Zero Trust).




