Ante la avalancha de nuevas vulnerabilidades detectadas en 2025, un nuevo estudio pone a prueba a los modelos de Inteligencia Artificial más avanzados (incluyendo GPT-5 y Gemini) para determinar si están listos para asumir el trabajo de los analistas de seguridad.
Con más de 40,000 CVEs (Vulnerabilidades y Exposiciones Comunes) publicadas solo en 2024, los equipos de ciberseguridad están al límite. La priorización y el puntaje de estas amenazas (utilizando el estándar CVSS) es una tarea manual y lenta. Un reciente informe analizado por Help Net Security explora la gran pregunta del año: ¿Pueden los Grandes Modelos de Lenguaje (LLMs) encargarse de clasificar estas amenazas por nosotros?
El Experimento: LLMs vs. CVSS
El estudio se centró en la capacidad de los modelos de IA para leer descripciones de vulnerabilidades y asignarles métricas de puntaje CVSS correctas sin intervención humana. Se probaron varios modelos líderes, incluidos Gemini y el reciente GPT-5.
Los Resultados: Promesas y Tropiezos
Los hallazgos muestran un panorama mixto, donde la IA brilla en tareas superficiales pero tropieza en el análisis profundo:
- El Acierto (Vectores de Ataque): Los modelos demostraron ser altamente competentes identificando cómo se ataca un sistema (ej. acceso físico, red local, red adyacente). Gemini lideró con una precisión del 89%, seguido muy de cerca por GPT-5. Esto sugiere que la IA entiende bien los conceptos básicos de la superficie de ataque.
- El Fallo (Complejidad e Impacto): La precisión cayó drásticamente en métricas más subjetivas. Todos los modelos tuvieron problemas para determinar el “Impacto en la Disponibilidad” y la “Complejidad del Ataque”, con una tasa de error compartida del 29% y 18% respectivamente.
El peligro de la “Alucinación Colectiva”
Un dato preocupante para la automatización total es la consistencia en el error. El estudio reveló que en el 36% de los casos, cuatro de los seis modelos evaluados se pusieron de acuerdo en la respuesta incorrecta.
Esto indica que los LLMs comparten “puntos ciegos” fundamentales. Cuando una descripción de CVE es vaga o carece de detalles explícitos, los modelos tienden a adivinar (y fallar) de la misma manera, lo que podría llevar a una organización a subestimar o exagerar riesgos sistemáticamente si confía ciegamente en la IA.
Conclusión: Copiloto, no Piloto Automático
La conclusión del estudio es clara: El contexto sigue siendo rey. Si bien los LLMs pueden acelerar el triaje inicial y acertar en la clasificación básica, carecen de la capacidad de razonamiento contextual necesaria para reemplazar a un analista humano.
Para los equipos de DevSecOps, la recomendación es utilizar estas herramientas como un sistema de “segunda opinión” o para el borrador inicial de los puntajes, manteniendo siempre a un experto humano en el bucle para validar las decisiones críticas.




