JORGE
DÁVILA MURO
Consultor independiente
Director
Laboratorio de Criptografía
LSIIS – Facultad
de Informática – UPM
jdavila@fi.upm.es |
Hace treinta años James P. Anderson1 estableció el concepto de Sistema de Deteccion de Intrusos, hoy más conocido como IDS, en su artículo “Computer Security Threat, Monitoring and Surveillance”. En él se invitaba a que se registrase el acceso de los usuarios al sistema, para así poder saber qué es lo que había ocurrido en él. La detección de intrusos2 es el acto de percibir acciones que persiguen o puedan comprometer la confidencialidad, integridad o disponibilidad de una fuente o servicio de información. La detección puede hacerse manualmente o de modo automático y cuando es el sistema el que toma medidas reactivas sin necesitar de la intervención humana, entonces hablamos de un Sistema de Prevención de Intrusiones (IPS).
En 1986, Dorothy E. Denning y Peter G. Neumann publicaron un modelo3 de IDS que constituye todavía hoy la base de muchos de los que rondan por el mercado. Su esencia es estadística y consiste en la detección de anomalías4 o comportamientos no homogéneos que son patrones que aparecen en un conjunto de datos y que no son compatibles con lo que se define como un “comportamiento normal”. Hay tres enfoques distintos en la detección de anomalías. Por un lado, las técnicas de detección supervisada, en las que al sistema detector se le enseña con ejemplos qué es normal y qué no es normal o anómalo, y luego éste se dedica a etiquetar comportamientos similares cuando los ve. También hay sistemas semi-supervisados en los que, a partir de un conjunto de entrenamiento, se construye un modelo de lo que es normal y luego se mide el grado de ajuste que hay entre lo que se detecta y el modelo de normalidad. Por último, también hay sistemas no supervisados, en los que anomalía es cualquier cosa que se desvíe demasiado del comportamiento mayoritario.
|
Treinta años de IDSs han sido suficientes para ver qué dan de sí las reglas lógicas, los modelos de normalidad, los sistemas expertos, las redes de neuronas y demás instrumentos de la Inteligencia Artificial. Lo que realmente se ha conseguido son sistemas reales demasiado nerviosos y que saltan por cualquier cosa, sistemas que, cuando se les exige un poco, desarrollan comportamientos paranoicos y psicóticos.
|
El modelo de Denning dio lugar a un IDS primigenio que se llamó Intrusion Detection Expert System (IDES) y que se basaba en un sistema experto definido por reglas, que perseguía detectar tipos conocidos de intrusión, y en un componente estadístico basado en perfiles de ususarios y sistemas. Más tarde se propuso incluir las redes de neuronas como tercer componente. En 1993 esa misma idea continuó con el Next-generation Intrusion Detection Expert System (NIDES)5.
Ademas de esta iniciativa hubo muchas otras, como son el Multics Intrusion Detection and Alerting System (MIDAS), desarrollado en 1988; el Haystack6, o el Wisdom & Sense7 desarrollado en Los Alamos National Laboratory. En el año 1990, la Time-based Inductive Machine (TIM) introduce el aprendizaje inductivo8 a partir de ejemplos en el mundo de los IDSs.
Por otra parte, el Network Security Monitor (NSM) utilizaba matrices de acceso para detectar anomalías, y el Information Security Officer’s Assistant9 (ISOA) fue un prototipo que reunía una amplia variedad de estrategias estadísticas, de identificación de perfiles y de sistemas expertos. El ComputerWatch10 de AT&T utilizaba estadísticas y reglas para reducir los datos primarios y para la detección de intrusiones, y de esa misma época son el Distributed Intrusion Detection System (DIDS), y el Network Anomaly Detection and Intrusion Reporter (NADIR).
Treinta años de IDSs han sido suficientes para ver qué dan de sí las reglas lógicas, los modelos de normalidad, los sistemas expertos, las redes de neuronas y demás instrumentos de la Inteligencia Artificial. Lo que realmente se ha conseguido son sistemas reales demasiado nerviosos y que saltan por cualquier cosa, sistemas que, cuando se les exige un poco desarrollan comportamientos paranoicos y psicóticos. Quizás estas propuestas puedan detectar eficientemente disfunciones en el sistema, pero lo que no logran distinguir son las pautas de ataque de operadores humanos pacientes y bien entrenados. La alta tasa de falsos positivos ha llevado a muchos IDSs a pasarse más tiempo apagados o en mantenimiento que en operación, pero siempre ajustados en niveles de alerta muy bajos para no molestar demasiado.
|
Los SEMs se distinguen de los simples gestores y recolectores de logs en que aquellos permiten un mayor detalle en el análisis del evento al acompañarlo de información contextual, como pueden ser los datos de la máquina, la información sobre la identidad de cuentas, usuarios y procesos... En principio, la existencia de este contexto haría posible que, de saber cómo hacerlo, se estableciesen mejores correlaciones que permitirían componer mejores y más precisos informes de situación.
|
SEM
Como evolución de la misma idea que representan los IDS aparecen los Security Event Managers (SEM), que son herramientas colocadas en las redes empresariales y que se encargan de centralizar el almacenamiento e interpretación de logs o eventos generados por otras aplicaciones software, ejecutándose en esa misma red. La idea de los SEMs apareció en 1999 y todavía hoy está en evolución. En origen se llamaron Security Information Managers (SIMs) y hoy también se les conoce como Security Information and Event Managers (SIEMs). Un mercado adyacente a éste es el de la gestión de logs, y ambos, obviamente, están muy relacionados. Tradicionalmente, la gestión de logs se centra en la recolección y almacenamiento de los datos, mientras que los SEM se centran más en su análisis.
Las colecciones de logs son listas cronológicas de apuntes textuales describiendo algunas de las actividades que acaecen en la ejecución del software. Las acciones que se apuntan en los logs se eligen entre una amplia panoplia de posibilidades y dependen del criterio de configurador del sistema. Los logs por sí mismos no aportan nada, es la imagen que dibujan y que evoluciona con el tiempo la que tiene alguna realidad.
La calidad de un sistema de logs depende esencialmente de la elección de operaciones registradas. Además de esto, hay protocolos como Syslog y SNMP que permiten llevar esos apuntes, en el momento en que ocurren, a otro lugar en el que serán añadidos en su correspondiente lista. Esta operación no necesariamente tiene que ocurrir donde se produjo el hecho, sino que conviene que sea en otro sistema independiente, especializado y distante.
Hay que tener en cuenta que la existencia de los SEMs como productos informáticos está muy relacionada con el cumplimiento de normas regulatorias como pueden ser la Sarbanes-Oxley11, PCI-DSS12, o la Ley 25/2007 “de conservación de datos relativos a las comunicaciones electrónicas y a las redes públicas de comunicaciones”13, por mencionar algunas. Como permiten monitorizar y analizar la actividad informática de las compañías, los SEMs son componentes muy útiles para generar los informes que sí son necesarios para ello; sin embargo, la mera posesión de un SEM no asegura el cumplimiento de ninguna norma. Para conocer algunos ejemplos comerciales y otras informaciones sobre los SEMs baste con referirnos a un artículo anterior publicado en esta revista14.
Uno de los problemas prácticos que plantean los SEM se traduce en la dificultad que hay en el uso y análisis de sus datos sobre eventos. Cada fabricante, e incluso cada producto, utiliza protocolos de comunicación y tipos de datos diferentes, propietarios, por lo que, con esta abigarrada oferta, no hay información para que los desarrolladores sepan integrarlos, o para que los administradores sepan cómo tratarlos correctamente e incluso para que los usuarios sepan utilizarlos correcta y eficazmente. Hoy por hoy, no hay iniciativas vivas que apunten hacia una próxima estandarización de estos productos, por lo que su futuro es, al menos, incierto.
El hecho de centralizar la gestión de logs aporta beneficios como el de tener una única interfaz de acceso a los mismos, disfrutar de un almacenamiento seguro y verificable, disponer de herramientas que extraigan de ellos información útil para la confección de informes, poder montar un sistema de alertas en tiempo más o menos real, detectar hechos que suceden concurrentemente en distintos sistemas y, en el caso de un desastre, que los datos de log sobrevivan incluso al sistema que los generó. Sin embargo, ese mismo centralismo también crea un punto crítico del sistema, ya que en él se almacena casi toda la información sensible, o potencialmente sensible, de la empresa.
|
Los futuros SEMs serán instrumentos para buscar cualquier cosa dentro de océanos de logs; en principio buscarán ataques, fallos y delitos, pero pronto podrán buscar cualquier cosa. Y en ese momento, la empresa que fabricó esos logs pasará de ser dueña de su destino a víctima de sus propios SEMs. Cualquier “inteligencia” se obtendrá a través de ellos, y no está claro quién se beneficiará de tal situación.
|
INTELIGENCIA Y MINERÍA
Los SEMs se distinguen de los simples gestores y recolectores de logs en que aquellos permiten un mayor detalle en el análisis del evento al acompañarlo de información contextual, como pueden ser los datos de la máquina, la información sobre la identidad de cuentas, usuarios y procesos, etc. En principio, la existencia de este contexto permitiría que, de saber cómo hacerlo, se estableciesen mejores correlaciones que permitirían componer mejores y más precisos informes de situación; es decir, los SEMs aportan “inteligencia” a quienes los controlan y los usan. Esa “inteligencia” es toda información discrecional o secreta que tenga relevancia y valor, y toda abstracción, evaluación y comprensión de tales informaciones básicas respecto a su valor y precisión. La inteligencia se refiere comúnmente a los planes corrientes, decisiones y acciones de gente y grupos de personas, cuyo conocimiento tiene cierta urgencia o es considerada, por cualquier motivo, como valiosa por quien la persigue.
La inteligencia activa es un componente en permanente cambio, que entra como variable en una ecuación aún mayor, que permite la comprensión de lo secreto, oculto y privado que puede haber en un oponente, en un competidor o en uno mismo. Esa comprensión permite responder preguntas y obtener avisos sobre hechos futuros, así como detectar movimientos que puedan terminar siendo importantes o relevantes para el que observa.
Los SEMs, como herramientas de análisis que son, extraen “inteligencia” de la empresa y tanto sus resultados, como su propio funcionamiento, deben considerarse “sensibles” y “críticos”; tanto para hacerse con informaciones secretas y sensibles, como para equivocar a nuestro contrincante, los mismos SEMs son un buen punto de ataque. Recopilar y custodiar registros de logs es, además de todo lo que ya se ha escrito, preparar el terreno para que otros, con orden judicial o sin ella, pero con experiencia en la tarea, sepan realmente extraer lo que esos datos dicen.
Los buenos SEMs, que están por llegar, pueden terminar relacionados con lo que, en términos más comunes se suele llamar Business Intelligence15. Con este nombre se engloban técnicas informáticas que pueden detectar, identificar, profundizar y analizar datos empresariales propios, y generar datos sobre cosas tales como los retornos de inversión por producto, por departamento o por trabajador, o que permiten relacionarlo todo con los costes, ingresos y riesgos. Cuando los datos estudiados son ajenos, lo que realmente hacemos es cruzar las lindes del espionaje y se suele denominar Competitive Intelligence16. Todas estas técnicas proporcionan datos históricos y actuales para la confección de informes de situación o prospectivos que son la materia prima para ayudar en la toma de decisiones (Decision Support Systems o DSS).
En su calidad de analizadores de cantidades ingentes de datos en bruto, los SEMs son otro ejemplo de lo que se denomina Minería de Datos, y por tal se entiende el proceso de extraer patrones y características de los datos. La minería de datos es la herramienta que transforma los datos en información y se utiliza en la extracción de perfiles para el marketing, la vigilancia o la detección del fraude, entre otras. Este tipo de minería suele trabajar con “muestras” de datos y no con todos los datos. Los procesos de extracción o minería realmente no son efectivos si los datos elegidos para la muestra no son una buena representación del conjunto universal del que han sido extraídos. La minería de datos no es infalible y sólo puede ser útil si se recogen suficientes muestras muy representativas; pero, aún así, la detección de un patrón en esas muestras no necesariamente significa que ese patrón esté en el conjunto general de los datos. Cualquier cosa que diga un proceso de minería de datos requiere una verificación y validación posteriores, que no son sencillas y sí muy estrictas, para que el resultado sea de alguna utilidad.
La investigacion de patrones, la detección de anomalías y, a fin de cuentas, cualquier investigación, son tareas muy delicadas que pueden fracasar fácilmente si los procesos experimentales, los de obtención de datos, no son suficientemente precisos, exactos e imparciales. También deben ser correctas las hipótesis o las leyes que se vayan a aplicar, ya que un error en ellas va a dejar sin descubrir lo que se buscaba, y se va a favorecer la aparición de fantasmas y conclusiones fatuas que alimentarán nuestro engaño.
|
La inteligencia no está en los datos, sino en las preguntas que se les hacen, la minería de datos es un simple instrumento. Aunque los SEMs y sus descendientes llegasen a ser lo que todavía hoy cuesta vislumbrar, hay que tener en cuenta que, muchas veces, lo realmente difícil no es conocer las respuestas, sino saber hacer las preguntas correctas.
|
Análisis de eventos, una actividad muy delicada
El análisis de eventos debe verse como una actividad muy delicada que exige y merece la mayor seriedad y profesionalidad, ya que sus consecuencias escalan velozmente en la jerarquía empresarial. El análisis de eventos para obtener informaciones e inteligencia es el territorio clásico de las agencias de inteligencia y su historia puede poner de manifiesto grandes éxitos17 y grandes fracasos18. En cualquier caso, este tipo de operaciones no se pueden hacer simplemente con una máquina, ni siquiera con software: requieren equipos de personas adecuadamente entrenadas y conscientes de lo que están haciendo. Dado que pronto todo lo que ocurra en una empresa tendrá reflejo preciso y detallado en lo que acontece en su red, ésta debería ir pensando en incluir nuevas formaciones en sus recursos humanos si realmente quiere poner en pie “sistemas analizadores de eventos” que les permitan realmente saber dónde están, qué está ocurriendo y quiénes son. Cuanto más valiosa es la información, más riesgo corre, por lo que la protección y el correcto funcionamiento de esos sistemas se convierten en algo crítico y esencialmente independiente de la propia red.
A finales de 1868, John Barnes Linnett descubrió que pasando deprisa ante sus ojos una serie de fotos o dibujos prácticamente idénticos se percibía el movimiento y decidió patentarlo con el nombre de kineógrafo (o folioscopio en castellano). La idea cuajó y después de él vinieron el phenakistoscopio, el mutoscopio, el zoetropo y el zoopraxiscopio que, con el Kinetoscopio de William Kennedy Dickson, terminó por inventar la Cinematografía. Quizás el análisis hacia delante y hacia atrás, a la derecha y a la izquierda, de millones de registros de logs por parte de los futuros SEMs pondrá de manifiesto los patrones sutiles en los que se esconden los buenos ataques informáticos pilotados por humanos bien entrenados y motivados, pero no será sólo eso lo que pongan de manifiesto.
Los futuros SEMs serán instrumentos para buscar cualquier cosa dentro de océanos de logs; en principio buscarán ataques, fallos y delitos, pero pronto podrán buscar cualquier cosa. En ese momento la empresa que fabricó esos logs pasará de ser dueña de su destino a víctima de sus propios SEMs. Cualquier “inteligencia” se obtendrá a través de ellos, y no está claro quién se beneficiará de ello.
La inteligencia no está en los datos, sino en las preguntas que se les hacen, la minería de datos es un simple instrumento. Aunque los SEMs y sus descendientes llegasen a ser lo que todavía hoy cuesta vislumbrar, hay que tener en cuenta que, muchas veces, lo realmente difícil no es conocer las respuestas, sino saber hacer las preguntas correctas.
|
1 VAnderson, James P.: “Computer Security Threat Monitoring and Surveillance” Washing, PA, James P. Anderson Co., 1980.
2 Helman, Paul, L.; Gunar, and Richards, Wynette: “Foundations of Intrusion Detection”. The IEEE Computer Security Foundations Workshop V, 1992.
3 Denning, D. E.: “An Intrusion Detection Model”. Proceedings of the Seventh IEEE Symposium on Security and Privacy, pps 119–131, May 1986.
4 Chandola, V., Banerjee A., Kumar V.: “Anomaly Detection: A Survey”, ACM Computing Surveys, Vol. 41(3), Article 15, July 2009.
5 Lunt, T. F.: “Detecting Intruders in Computer Systems” 1993, Conference on Auditing and Computer Technology, SRI International.
6 Smaha, S. E.: “Haystack: An Intrusion Detection System”. The Fourth Aerospace Computer Security Applications Conference, Orlando, FL, December 1988.
7 Vaccaro, H. S., Liepins, G.E.: “Detection of Anomalous Computer Session Activity”. The 1989 IEEE Symposium on Security and Privacy, May 1989.
8 Teng, H. S., Chen, K., Lu, S. C-Y: “Adaptive Real-time Anomaly Detection Using Inductively Generated Sequential Patterns”. IEEE Symposium on Security and Privacy, 1990.
9 Winkeler, J.R.: “A UNIX Prototype for Intrusion and Anomaly Detection in Secure Networks”. The Thirteenth National Computer Security Conference, Washington DC., pages 115–124, 1990.
10 Dowell, C, Ramstedt, P.: “The ComputerWatch Data Reduction Tool”. Proceedings of the 13th National Computer Security Conference, Washington, D.C., 1990.
11 También conocida como “Public Company Accounting Reform and Investor Protection Act” en el Senado de los EE.UU., y “Corporate and Auditing Accountability and Responsibility Act” en el parlamento. Comúnmente se la conoce como norma Sarbanes–Oxley, tomando los apellidos de sus promotores legislativos norteamericanos. También se la conoce como la norma SOX.
12 El Payment Card Industry Data Security Standard (PCI DSS) es un estándar mundial en seguridad de la información definido por el Payment Card Industry Security Standards Council.
13 Ver BOE 251 Viernes 19 Octubre 2007 p42517 en http:// www.boe.es/boe/dias/2007/10/19/pdfs/A42517-42523.pdf.
14 Jorge Laredo de la Iglesia: “La gestión de logs y la correlación de eventos con fines de seguridad”. Revista SIC. Nº 90 pp.66-73, Junio de 2010.
15 En un artículo de 1958, Hans Peter Luhn, investigador de IBM, utilizó el término “business intelligence” para referirse a “la habilidad de aprehender las interrelaciones que hay entre los datos conocidos de modo que sirvan para guiar la acción hacia el objetivo deseado”.
16 Competitive Intelligence es la acción de definir, obtener, analizar y distribuir “inteligencia” acerca de productos, clientes, competidores y cualquier otro aspecto que sea necesario para apoyar la toma de decisiones estratégicas para una organización.
17 Por ejemplo, ver http:// en.wikipedia.org/wiki/Penkovsky y http:// en.wikipedia.org/wiki/Cuban_Missile_Crisis.
18 Tim Weiner: “Legacy of Ashes: The History of the CIA”. Doubleday. 1st Edition 2007. ISBN-10: 038551445X, ISBN-13: 978-0385514453.
|
|
|
|