Evaluación de modelos de lenguaje de gran tamaño (LLM) en ciberseguridad

Este trabajo continúa un trabajo previo, desarrollado por Andrés Takashi Bravo Yaguchi, que identificó la escasez de expertos en ciberseguridad [9] y busca evaluar la utilidad de los modelos LLM (Large Language Model) como herramientas para resolver preguntas de ciberseguridad. La escasez de experto...

Full description

Autores:
Castellanos Bonilla, Juan Diego
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
2024
Institución:
Universidad de los Andes
Repositorio:
Séneca: repositorio Uniandes
Idioma:
spa
OAI Identifier:
oai:repositorio.uniandes.edu.co:1992/74392
Acceso en línea:
https://hdl.handle.net/1992/74392
Palabra clave:
Ciberseguridad
Modelos de lenguajes de gran tamaño
Ingeniería
Rights
embargoedAccess
License
Attribution 4.0 International
Description
Summary:Este trabajo continúa un trabajo previo, desarrollado por Andrés Takashi Bravo Yaguchi, que identificó la escasez de expertos en ciberseguridad [9] y busca evaluar la utilidad de los modelos LLM (Large Language Model) como herramientas para resolver preguntas de ciberseguridad. La escasez de expertos en ciberseguridad aumenta la exposición de las organizaciones, a nivel mundial, a ciberataques. Esta afirmación es respaldada por el consorcio internacional de certificación de seguridad de sistemas de información (ISC) cuando menciona que hay una fuerte demanda para la seguridad de la nube y manejo de AI, mientras que la escasez de mano calificada aumenta [25]. Adicionalmente, en el 2023 un grupo de expertos de SECURE de Asia pacífico evalúa el desafío de la AI y la oportunidad de crecimiento de fuerza laboral. Ellos encontraron que dicha fuerza laboral en 11.8 % en el mundo y un 23.8 % en Japón, pero al mismo tiempo la demanda laboral aumentó 23.4 %. La diferencia entre la disponibilidad y la demanda muestra un vacío en fuerza de trabajo y habilidades requeridas [26]. Para disminuir este vacío ISC decidió dar a sus afiliados créditos para tomar cursos los cuales incluyen los temas: 1. El creciente papel de la IA en la ciberdefensa 2. bordar la brecha de mano de obra y habilidades en APAC 3. Por qué la ciberseguridad debería prestar atención a la desinformación y el ’hacking cognitivo’ 4. Las realidades de lograr la resiliencia en ciberseguridad 5. Gestión del riesgo cibernético utilizando marcos como NIST 6. La evolución de los controles de acceso a la nube Estos temas fueron tocados durante dos días con el fin de disminuir un poco la brecha entre la oferta y la demanda. Teniendo en cuenta el auge que han tenido los LLM (large language models) y con el estudio que hizo el grupo de expertos de SECURE se quiere comprobar si mediante el uso de diferentes LLM se puede llegar a obtener soluciones viables y comprensibles para disminuir la brecha existente entre oferta y demanda en el campo de ciberseguridad. Este proyecto busca evaluar y realizar una comparación de la utilidad de diferentes modelos de lenguaje para responder correctamente las preguntas relacionadas al tema de seguridad y la información. Después de esto realizar una comparación con el modelo mas conocido CHATGPT. Con el fin de tener una comparación precisa, se utilizaron los mismos datos usados en el trabajo previo. Para poder obtener las respuestas de los otros tres modelos, se realizó lo siguiente: Claude utiliza el API de anthropic para generar respuestas a partir de una solicitud del usuario. Llama utiliza el API de Meta para generar respuestas a partir de una solicitud del usuario. Falcon Utiliza las librerias necesarias y luego de esto carga el modelo de FALCON mediante un pipeline. 1. transformers 2. einops 3. accelerate 4. langchain 5. bitsandbytes. Dado que el trabajo previo pudo establecer que ChatGPT puede ser utilizado para generar respuestas que mantienen similitudes gramaticales con las respuestas escritas por humanos y que el modelo tiene el potencial de funcionar como una herramienta de consulta, generando respuestas útiles a preguntas relacionadas con la seguridad de la información. En este estudio, no solo se busca determinar si los tres nuevos modelos pueden igualar la eficacia de ChatGPT, sino que también se explora la posibilidad de encontrar alternativas que puedan ofrecer una calidad superior a la del modelo más reconocido. El objetivo es ampliar el conjunto de herramientas disponibles en el campo de la ciberseguridad, proporcionando así más opciones para abordar la creciente demanda de expertos en este ámbito. Al final de esto se busca determinar el nivel de similitud que guardan las respuestas generadas por los modelos con las respuestas dadas por los usuarios en el foro y obtenidas en chatGPT. Mediante el uso de pruebas de similitud semántica de textos y revisión manual de algunas respuestas con verificación humana. En el trabajo previo, el autor estableció que ChatGPT puede generar respuestas útiles a preguntas en ciberseguridad. Este estudio amplía la investigación previa comparando ChatGPT con otros tres modelos de lenguaje: Claude, Llama y Falcon, para determinar si estos modelos pueden ofrecer respuestas de igual o mejor calidad. El contexto del problema se sitúa tanto a nivel global como en Colombia, donde se destaca la escasez de profesionales capacitados en ciberseguridad y las graves consecuencias que esto tiene para las organizaciones. La creciente demanda de expertos en ´áreas emergentes como la seguridad de la nube y la inteligencia artificial agrava esta situación. Para abordar este desafío, se discuten nuevas herramientas y modelos de lenguaje que podrían ayudar a reducir la brecha entre la oferta y la demanda de habilidades en ciberseguridad. La solución propuesta se basa en el uso de datos y métricas específicas para evaluar las respuestas generadas por los modelos de lenguaje. Las métricas utilizadas incluyen BLEU, ROUGE y METEOR, estándares en la evaluación de la calidad de traducciones y respuestas generadas por inteligencia artificial. Además, las respuestas se anotan manualmente para asegurar una evaluación precisa y confiable, lo que refuerza la validez de los resultados obtenidos. El proceso de implementación de las pruebas implicó analizar publicaciones en Stack Exchange y seleccionar preguntas relevantes para el estudio. Se configuraron y utilizaron herramientas específicas para ejecutar los modelos de lenguaje (Claude, Vicuna y Falcon). Este documento presenta los resultados de las pruebas en tablas y figuras, y los resultados de las métricas calculadas para evaluar la calidad de las respuestas generadas por los modelos de lenguaje. Las métricas BLEU, ROUGE y METEOR permitieron comparar la precisión y relevancia de las respuestas en relación con las respuestas humanas. Además, una evaluación manual realizada por verificadores humanos proporcionó una visión más completa de la eficacia de cada modelo, añadiendo una capa adicional de rigor a los hallazgos. Finalmente, los resultados del estudio mostraron que el modelo Claude tuvo un mejor desempeñó en tres de las cinco métricas consideradas: BLEU, ROUGE1 y METEOR, con puntajes de 0.0629, 0.2090 y 0.2287 respectivamente. Estos resultados sugieren que Claude es más eficaz en la generación de texto coherente y relevante. Falcon obtuvo el mejor desempeñó en la métrica ROUGE1 con un puntaje de 0.2378, mientras que Llama destacó en ROUGE2 con un puntaje de 0.0342, indicando su habilidad para capturar detalles específicos en las respuestas. Aunque Claude demostró ser el más versátil, cada modelo tiene fortalezas que pueden ser ´útiles en diferentes contextos de ciberseguridad. Para futuras investigaciones, sería beneficioso evaluar una gama más amplia de modelos y métricas, explorar su desempeño en diversas aplicaciones de ciberseguridad y realizar estudios longitudinales para observar la evolución de estos modelos y su impacto en la industria. También se podría investigar la integración de estos modelos en sistemas de ciberdefensa automatizados para probar su eficacia en escenarios reales. Además, la colaboración con expertos en ciberseguridad para la creación de conjuntos de datos más relevantes y desafiantes podría proporcionar una mejor base para evaluar y mejorar estos modelos.