Un informe técnico publicado recientemente por
📊 Resultados: La brecha entre coste y eficacia de detección
El benchmark utilizó registros de eventos de Windows y herramientas de ataque como Mimikatz y Rubeus bajo el riguroso marco de la matriz
| Modelo Evaluado | Tasa de Detección (Promedio) | Coste por Ejecución | Estado del Benchmark |
| Claude Opus 4.6 | 46% (Líder en rendimiento) | $17.98 | Reprobado |
| GPT-5 | ~2% | $1.07 | Reprobado |
| Gemini 3.1 Pro | ~2% | $1.85 | Reprobado |
| Gemini 3 Flash | 1.4% | $0.19 (Más económico) | Reprobado |
🔬 El problema de la asimetría: Ruido vs. Objetivos
Los laboratorios de
Finalización Prematura: Muchos modelos dejaron de investigar antes de agotar su presupuesto de consultas, declarando erróneamente que los sistemas estaban "limpios".
Limitaciones del Contexto: El análisis sostiene que ventanas de contexto más amplias o cadenas de pensamiento (Chain of Thought) no resuelven la falta de una señal de conclusión determinista en la defensa.
El "Arnés" de Seguridad: La IA solo alcanza niveles de precisión del 95% cuando se envuelve en un entorno estructurado que incluya contexto organizacional y bucles de evaluación externos que impidan que el modelo declare el trabajo como terminado antes de tiempo.
🛠️ Implicaciones para el SOC y equipos de seguridad
Este benchmark representa un cambio radical en la evaluación de la ciberseguridad, alejándose de los exámenes de opción múltiple para pasar a la acción determinista sobre datos reales. La incapacidad de modelos de alto nivel para superar el 46% de detección subraya que un LLM por sí solo no es un defensor. Para los equipos de seguridad, esto significa que la implementación de agentes de IA en el
Simbian planea expandir este benchmark para cubrir telemetría en Linux, macOS y entornos de Nube en futuras iteraciones de este año.
Te puede interesar
Por:
CEO | Editor en NEWSTECNICAS