Analisis de señales no convencionales en la predicción de ciberataques
En este trabajo se aborda el problema del análisis de riesgos cibernéticos utilizando datos no convencionales provenientes de redes sociales y foros públicos, particularmente de Reddit y la base de datos de vulnerabilidades CVE. La principal dificultad radica en la naturaleza desestructurada y ruido...
- Autores:
-
Rodríguez Bernal, Santiago
- Tipo de recurso:
- Trabajo de grado de pregrado
- Fecha de publicación:
- 2024
- Institución:
- Universidad de los Andes
- Repositorio:
- Séneca: repositorio Uniandes
- Idioma:
- spa
- OAI Identifier:
- oai:repositorio.uniandes.edu.co:1992/74340
- Acceso en línea:
- https://hdl.handle.net/1992/74340
- Palabra clave:
- Ciberseguridad
Análisis de datos
Procesamiento de lenguaje natural
Filtrado de datos
Vulnerabilidades
Reddit
CVE (common vulnerabilities and exposures)
Seguridad informática
Análisis de riesgos
Redes sociales
Minería de texto
Ingeniería
- Rights
- openAccess
- License
- Attribution-NonCommercial 4.0 International
Summary: | En este trabajo se aborda el problema del análisis de riesgos cibernéticos utilizando datos no convencionales provenientes de redes sociales y foros públicos, particularmente de Reddit y la base de datos de vulnerabilidades CVE. La principal dificultad radica en la naturaleza desestructurada y ruidosa de estos datos, lo que complica su limpieza y filtrado para obtener información relevante y útil. Para resolver este problema, se desarrolló un proceso robusto de filtrado y limpieza de datos, que incluye la identificación de palabras clave relevantes para analizar la frecuencia y el contexto de estas palabras. El proceso se implementó en Python utilizando Jupyter Notebooks, con herramientas como Pandas y Matplotlib para la manipulación y visualización de datos. Los resultados alcanzados muestran que, al ajustar el número de palabras clave en el filtro, es posible optimizar el balance entre precisión y cantidad de datos, capturando información altamente relevante y reduciendo el ruido. Se identificaron registros importantes que comentaban sobre noticias de ciberseguridad y ataques de relevancia, como el incidente de SolarWinds. Sin embargo, también se encontraron desafíos, como la inclusión de registros irrelevantes relacionados con servicios de tech support, lo que destaca la necesidad de un refinamiento continuo del proceso de filtrado. En conclusión, el trabajo realizado demuestra la relevancia y efectividad del enfoque adoptado, y plantea como trabajo futuro la implementación de modelos de aprendizaje automático para refinar aún más el proceso de filtrado, así como la posibilidad de aplicar estos modelos en tiempo real para mejorar la capacidad de anticiparse y mitigar amenazas cibernéticas. |
---|