Análisis de temas utilizando Twitter: una aplicación del modelo LDA al caso Colombiano.

En la actualidad, los avances tecnológicos han logrado que las personas estén cada vez más conectadas entre sí. Las redes sociales han facilitado la comunicación instantánea no solo entre personas que se conocen ya sea por ser amigos, familiares, pareja, sino también entre personas desconocidas que...

Full description

Autores:
Diaz Rubiano, Manuel Alejandro
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
2022
Institución:
Universidad Santo Tomás
Repositorio:
Repositorio Institucional USTA
Idioma:
spa
OAI Identifier:
oai:repository.usta.edu.co:11634/43303
Acceso en línea:
http://hdl.handle.net/11634/43303
Palabra clave:
N-grams
Stemming
Lemmatization
Cluster
Algorithm
Naive Bayes
Python Language
Twitter
ROC Curve
Confusion Matrix
Unbalanced Data}
Matriz de Confusión-- Estadística
Curva ROC
Datos-- No Balanceados
Unigrama
Bigrama
Stemming
Lematización
Cluster
Algoritmo
Naive Bayes
Lenguaje Python
Twitter
Curva ROC
Matriz de Confusión
Datos no Balanceados
Rights
openAccess
License
CC0 1.0 Universal
Description
Summary:En la actualidad, los avances tecnológicos han logrado que las personas estén cada vez más conectadas entre sí. Las redes sociales han facilitado la comunicación instantánea no solo entre personas que se conocen ya sea por ser amigos, familiares, pareja, sino también entre personas desconocidas que comparten cosas en común, o nada en común. De acuerdo con (Alvino, 2021), Twitter es una de las redes sociales más usadas en el mundo, con más de 322 millones de usuarios ha cifras del mes de julio del año 2021, y se basa en la publicación de microblogs en los cuales las personas publican por escrito principalmente, lo que están pensando en el momento. Es una red social perfecta para aquellas personas que, por su reconocimiento o fama, pueden influir fácilmente con sus opiniones, gracias a su gran número de admiradores o seguidores. Twitter en los últimos años ha diseñado una API la cual permite poder conectarse a la información que cada segundo se produce en su plataforma, de los más de 322 millones de usuarios. Para acceder a esta información, se utilizan 2 lenguajes de programación principales: R y Python. En el actual trabajo, se utiliza la API de Twitter, pues gracias a esta herramienta, se pueden descargar los datos, las opiniones que se están posteando en tiempo real a cada minuto en la red social. Con estos datos, se pueden realizar análisis, por ejemplo, análisis exploratorios sobre las opiniones de las personas, que piensan de las elecciones locales en las ciudades capitales, pues se pueden aplicar diferentes tipos de filtros de ubicación, y obtener datos de ciudades en específico, lo cual se realiza en este trabajo. Con lo anterior, también se usará distintas técnicas de Procesamiento del Lenguaje Natural (NLP), para poder obtener conclusiones correspondientes a los temas de interés, y a través de los hallazgos, obtener resultados. La principal técnica que se usó en el siguiente trabajo corresponde a las técnica de modelado de tópicos, en especial, el modelo LDA (\textit{Latent Dirichlet Allocation} por sus siglas en ingles). La asignación de Dirichlet Latente (LDA) es un modelo estadístico generativo que permite explicar conjuntos de observaciones mediante grupos no observados que explican por qué algunas partes de los datos son similares (Blei et.al 2003). Se puede decir que existen dos clases de modelados de tópicos, que son los modelos de tópicos lineares y los modelos de tópicos probabilísticos. Un ejemplo del modelo lineal es el modelo de Asignación Semántica Latente (LSA) y un ejemplo del modelo probabilístico es el modelo de Asignación de Dirichlet Latente, que es el modelo principal del actual trabajo. Se han desarrollado trabajos similares, el cual uno de ellos es el de Guarnizo, E. \& Monroy, A. (2021), en el cual se trato de inferir la aceptabilidad publica sobre el tema de la jurisdicción especial para la paz, utilizando opiniones sobre este tema en específico, tomado de redes sociales. Estos resultados se pueden implementar en cuestiones de política pública, o de influencia política, teniendo en cuenta el panorama pre electoral que afronta Colombia, y aún más con los sucesos como la pandemia de Covid 19, el Paro Nacional, o el recrudecimiento de la violencia. (Haselmayer & Jenny, 2016)