Identificación de lenguaje ofensivo en mensajes de texto, utilizando técnicas de aprendizaje automático

Este proyecto de investigación se centró en el estudio y desarrollo de modelos de aprendizaje automático supervisado, incluyendo variantes de Naive Bayes, máquinas de soporte vectorial y redes neuronales convolucionales, con el propósito de identificar y clasificar tweets como ofensivos o no ofensiv...

Full description

Autores:
Ocampo Morales, Kevin Steven
Arango Salazar, Juan Sebastian
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
2023
Institución:
Pontificia Universidad Javeriana Cali
Repositorio:
Vitela
Idioma:
spa
OAI Identifier:
oai:vitela.javerianacali.edu.co:11522/2855
Acceso en línea:
https://vitela.javerianacali.edu.co/handle/11522/2855
Palabra clave:
Redes sociales
Libertad de expresión
Lenguaje ofensivo
Análisis de sentimientos
Aprendizaje automático
Clasificación
Rights
License
https://creativecommons.org/licenses/by-nc-nd/4.0/
Description
Summary:Este proyecto de investigación se centró en el estudio y desarrollo de modelos de aprendizaje automático supervisado, incluyendo variantes de Naive Bayes, máquinas de soporte vectorial y redes neuronales convolucionales, con el propósito de identificar y clasificar tweets como ofensivos o no ofensivos. A lo largo de esta investigación, se siguieron varios pasos fundamentales que desempeñaron un papel importante en la creación de los modelos finales. Los diversos procesos experimentales desarrollados a lo largo de la investigación arrojaron resultados de relevancia. Inicialmente, se implementaron modelos base predeterminados disponibles en las librerías. A medida que avanzábamos e iteramos, además de la constante incorporación de métodos y técnicas más avanzadas que permitían enriquecer y perfeccionar los modelos. Al concluir la investigación tanto los modelos de Naive Bayes, junto con el modelo de máquinas de soporte vectorial, arrojaron resultados excelentes durante las fases de entrenamiento, pero al momento de comprobar con la fase de prueba los resultados fueron deficientes. A pesar de implementar diversas estrategias, métodos y técnicas para mejorar su eficacia en el proceso de la clasificación de tweets, no se logró un desempeño satisfactorio debido a problemas de sobreajuste. Además, el modelo de redes neuronales, junto con las técnicas implementadas para optimizar su rendimiento, demostró ser efectivo al proporcionar resultados satisfactorios. En resumen, este estudio facilitó la exploración de diversos métodos y técnicas en el desarrollo de modelos de clasificación, destacando la relevancia de la iteración continua para el constante perfeccionamiento de la investigación.