Análisis de polaridad de tweets sobre contexto político colombiano usando técnicas de aprendizaje no supervisado

El análisis de polaridad u orientación semántica es una de las ramas del Natural Language Processing que ha tenido más crecimiento en el última década, con amplias aplicaciones a nivel académico y comercial. En este proyecto de grado se realizó una exploración sobre la aplicación de modelos de Machi...

Full description

Autores:
Pizarro Rivera, Francisco
Tipo de recurso:
Masters Thesis
Fecha de publicación:
2024
Institución:
Pontificia Universidad Javeriana Cali
Repositorio:
Vitela
Idioma:
spa
OAI Identifier:
oai:vitela.javerianacali.edu.co:11522/2079
Acceso en línea:
https://vitela.javerianacali.edu.co/handle/11522/2079
Palabra clave:
Tweets
No supervisado
NLP
Tf-idf
Orientación semántica
Machine learning
VADER
Rights
License
https://creativecommons.org/licenses/by-nc-sa/4.0/
Description
Summary:El análisis de polaridad u orientación semántica es una de las ramas del Natural Language Processing que ha tenido más crecimiento en el última década, con amplias aplicaciones a nivel académico y comercial. En este proyecto de grado se realizó una exploración sobre la aplicación de modelos de Machine Learning de carácter Auto Supervisado y No Supervisado para realizar el análisis de polaridad en tweets escritos por los usuarios de la red social X específicamente escritos sobre el contexto político colombiano. Se exploró el uso de un enfoque con modelos híbridos, en los cuales se hace un preproceso de pseudo etiquetado por medio de un modelo basado en lexicones (modelo VADER) para luego entrenar modelos supervisados como SVM, Logistic Regression y Multinomial Naive Bayes. El segundo enfoque constó de usar el modelo No Supervisado de K-Means, obteniendo un performance superior en la ejecución del modelo hibrido. Este trabajo tiene también por output la exportación a modo de prototipo del modelo con mejor performance y su vectorizador entrenado con el vocabulario de los 4.830 tweets recolectados de manera manual para ser desplegado en posibles ambientes de producción para el desarrollo de herramientas de análisis de orientación semántica aplicada a textos de redes sociales, pero en específico a tweets relacionados con el contexto político colombiano.