Análisis de temas utilizando Twitter: una aplicación del modelo LDA al caso Colombiano.

En la actualidad, los avances tecnológicos han logrado que las personas estén cada vez más conectadas entre sí. Las redes sociales han facilitado la comunicación instantánea no solo entre personas que se conocen ya sea por ser amigos, familiares, pareja, sino también entre personas desconocidas que...

Full description

Autores:
Diaz Rubiano, Manuel Alejandro
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
2022
Institución:
Universidad Santo Tomás
Repositorio:
Repositorio Institucional USTA
Idioma:
spa
OAI Identifier:
oai:repository.usta.edu.co:11634/43303
Acceso en línea:
http://hdl.handle.net/11634/43303
Palabra clave:
N-grams
Stemming
Lemmatization
Cluster
Algorithm
Naive Bayes
Python Language
Twitter
ROC Curve
Confusion Matrix
Unbalanced Data}
Matriz de Confusión-- Estadística
Curva ROC
Datos-- No Balanceados
Unigrama
Bigrama
Stemming
Lematización
Cluster
Algoritmo
Naive Bayes
Lenguaje Python
Twitter
Curva ROC
Matriz de Confusión
Datos no Balanceados
Rights
openAccess
License
CC0 1.0 Universal
id SANTTOMAS2_74a850882549d6ab0d3e808d4b977ace
oai_identifier_str oai:repository.usta.edu.co:11634/43303
network_acronym_str SANTTOMAS2
network_name_str Repositorio Institucional USTA
repository_id_str
dc.title.spa.fl_str_mv Análisis de temas utilizando Twitter: una aplicación del modelo LDA al caso Colombiano.
title Análisis de temas utilizando Twitter: una aplicación del modelo LDA al caso Colombiano.
spellingShingle Análisis de temas utilizando Twitter: una aplicación del modelo LDA al caso Colombiano.
N-grams
Stemming
Lemmatization
Cluster
Algorithm
Naive Bayes
Python Language
Twitter
ROC Curve
Confusion Matrix
Unbalanced Data}
Matriz de Confusión-- Estadística
Curva ROC
Datos-- No Balanceados
Unigrama
Bigrama
Stemming
Lematización
Cluster
Algoritmo
Naive Bayes
Lenguaje Python
Twitter
Curva ROC
Matriz de Confusión
Datos no Balanceados
title_short Análisis de temas utilizando Twitter: una aplicación del modelo LDA al caso Colombiano.
title_full Análisis de temas utilizando Twitter: una aplicación del modelo LDA al caso Colombiano.
title_fullStr Análisis de temas utilizando Twitter: una aplicación del modelo LDA al caso Colombiano.
title_full_unstemmed Análisis de temas utilizando Twitter: una aplicación del modelo LDA al caso Colombiano.
title_sort Análisis de temas utilizando Twitter: una aplicación del modelo LDA al caso Colombiano.
dc.creator.fl_str_mv Diaz Rubiano, Manuel Alejandro
dc.contributor.advisor.none.fl_str_mv Rincon Gomez, William Arley
dc.contributor.author.none.fl_str_mv Diaz Rubiano, Manuel Alejandro
dc.contributor.orcid.spa.fl_str_mv https://orcid.org/0000-0002-4419-1270
dc.contributor.googlescholar.spa.fl_str_mv https://scholar.google.com/citations?hl=es&user=5z4hIPgAAAAJ
dc.contributor.cvlac.spa.fl_str_mv https://scienti.minciencias.gov.co/cvlac/visualizador/generarCurriculoCv.do?cod_rh=0000571776&lang=es
dc.subject.keyword.spa.fl_str_mv N-grams
Stemming
Lemmatization
Cluster
Algorithm
Naive Bayes
Python Language
Twitter
ROC Curve
Confusion Matrix
Unbalanced Data}
topic N-grams
Stemming
Lemmatization
Cluster
Algorithm
Naive Bayes
Python Language
Twitter
ROC Curve
Confusion Matrix
Unbalanced Data}
Matriz de Confusión-- Estadística
Curva ROC
Datos-- No Balanceados
Unigrama
Bigrama
Stemming
Lematización
Cluster
Algoritmo
Naive Bayes
Lenguaje Python
Twitter
Curva ROC
Matriz de Confusión
Datos no Balanceados
dc.subject.lemb.spa.fl_str_mv Matriz de Confusión-- Estadística
Curva ROC
Datos-- No Balanceados
dc.subject.proposal.spa.fl_str_mv Unigrama
Bigrama
Stemming
Lematización
Cluster
Algoritmo
Naive Bayes
Lenguaje Python
Twitter
Curva ROC
Matriz de Confusión
Datos no Balanceados
description En la actualidad, los avances tecnológicos han logrado que las personas estén cada vez más conectadas entre sí. Las redes sociales han facilitado la comunicación instantánea no solo entre personas que se conocen ya sea por ser amigos, familiares, pareja, sino también entre personas desconocidas que comparten cosas en común, o nada en común. De acuerdo con (Alvino, 2021), Twitter es una de las redes sociales más usadas en el mundo, con más de 322 millones de usuarios ha cifras del mes de julio del año 2021, y se basa en la publicación de microblogs en los cuales las personas publican por escrito principalmente, lo que están pensando en el momento. Es una red social perfecta para aquellas personas que, por su reconocimiento o fama, pueden influir fácilmente con sus opiniones, gracias a su gran número de admiradores o seguidores. Twitter en los últimos años ha diseñado una API la cual permite poder conectarse a la información que cada segundo se produce en su plataforma, de los más de 322 millones de usuarios. Para acceder a esta información, se utilizan 2 lenguajes de programación principales: R y Python. En el actual trabajo, se utiliza la API de Twitter, pues gracias a esta herramienta, se pueden descargar los datos, las opiniones que se están posteando en tiempo real a cada minuto en la red social. Con estos datos, se pueden realizar análisis, por ejemplo, análisis exploratorios sobre las opiniones de las personas, que piensan de las elecciones locales en las ciudades capitales, pues se pueden aplicar diferentes tipos de filtros de ubicación, y obtener datos de ciudades en específico, lo cual se realiza en este trabajo. Con lo anterior, también se usará distintas técnicas de Procesamiento del Lenguaje Natural (NLP), para poder obtener conclusiones correspondientes a los temas de interés, y a través de los hallazgos, obtener resultados. La principal técnica que se usó en el siguiente trabajo corresponde a las técnica de modelado de tópicos, en especial, el modelo LDA (\textit{Latent Dirichlet Allocation} por sus siglas en ingles). La asignación de Dirichlet Latente (LDA) es un modelo estadístico generativo que permite explicar conjuntos de observaciones mediante grupos no observados que explican por qué algunas partes de los datos son similares (Blei et.al 2003). Se puede decir que existen dos clases de modelados de tópicos, que son los modelos de tópicos lineares y los modelos de tópicos probabilísticos. Un ejemplo del modelo lineal es el modelo de Asignación Semántica Latente (LSA) y un ejemplo del modelo probabilístico es el modelo de Asignación de Dirichlet Latente, que es el modelo principal del actual trabajo. Se han desarrollado trabajos similares, el cual uno de ellos es el de Guarnizo, E. \& Monroy, A. (2021), en el cual se trato de inferir la aceptabilidad publica sobre el tema de la jurisdicción especial para la paz, utilizando opiniones sobre este tema en específico, tomado de redes sociales. Estos resultados se pueden implementar en cuestiones de política pública, o de influencia política, teniendo en cuenta el panorama pre electoral que afronta Colombia, y aún más con los sucesos como la pandemia de Covid 19, el Paro Nacional, o el recrudecimiento de la violencia. (Haselmayer & Jenny, 2016)
publishDate 2022
dc.date.accessioned.none.fl_str_mv 2022-02-17T21:50:19Z
dc.date.available.none.fl_str_mv 2022-02-17T21:50:19Z
dc.date.issued.none.fl_str_mv 2022-02-17
dc.type.local.spa.fl_str_mv Trabajo de grado
dc.type.version.none.fl_str_mv info:eu-repo/semantics/acceptedVersion
dc.type.category.spa.fl_str_mv Formación de Recurso Humano para la Ctel: Trabajo de grado de Pregrado
dc.type.coar.none.fl_str_mv http://purl.org/coar/resource_type/c_7a1f
dc.type.drive.none.fl_str_mv info:eu-repo/semantics/bachelorThesis
format http://purl.org/coar/resource_type/c_7a1f
status_str acceptedVersion
dc.identifier.citation.spa.fl_str_mv Diaz, M. (2022). Análisis de Temas Utilizando Twitter: una Aplicación del Modelo LDA al Caso Colombiano. [Trabajo de pregrado, Universidad Santo Tomas]. Repositorio instucional
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/11634/43303
dc.identifier.reponame.spa.fl_str_mv reponame:Repositorio Institucional Universidad Santo Tomás
dc.identifier.instname.spa.fl_str_mv instname:Universidad Santo Tomás
dc.identifier.repourl.spa.fl_str_mv repourl:https://repository.usta.edu.co
identifier_str_mv Diaz, M. (2022). Análisis de Temas Utilizando Twitter: una Aplicación del Modelo LDA al Caso Colombiano. [Trabajo de pregrado, Universidad Santo Tomas]. Repositorio instucional
reponame:Repositorio Institucional Universidad Santo Tomás
instname:Universidad Santo Tomás
repourl:https://repository.usta.edu.co
url http://hdl.handle.net/11634/43303
dc.language.iso.spa.fl_str_mv spa
language spa
dc.relation.references.spa.fl_str_mv Bengfort, B., Bilbro, R. & Ojeda, T. (2018),Applied Text Analysis with Python: EnablingLanguage-Aware Data Products with Machine Learning, O’Reilly Media, Inc
B ́ecue M ́onica, L. L. (1992), ‘El analisis estadistico de datos textuales. La lectura seg ́un losescolares de ense ̃nanza primaria.’,Anuario de Psicolog ́ıa. Universitat de Barcelona.
Golberg, Y. (2017),Neural Network Methods in Natural Language Processing, Morgan &Claypool Publishers
Guarnizo, E. & Monroy, A. (2020), Implementaci ́on de un modelo de An ́alisis de sen-timientos con respecto a la JEP basado en miner ́ıa de datos en twitter, Master’sthesis, Universidad Cat ́olica de Colombia, Colombia.
Hammoe, L. (2018), Detecci ́on de T ́opicos utilizando el modelo LDA, Master’s thesis,Instituto Tecnol ́ogico de Buenos Aires, Argentina
Hern ́andez, H. (2020), Integraci ́on de Data Mining sobre noticias para predicci ́on demercados financieros, Master’s thesis, Universidad Polit ́ecnica de Madrid, Espa ̃na
Ingersoll, G., Morton, T. & Farris, D. (2013),Taming Text: How to Find, Organize, andManipulate It, Manning Publications.
Jelodar, H., Wang, Y., Yuan, C., Feng, X., Jiang, X., Li, Y. & Zhao, L. (2019), ‘La-tent Dirichlet allocation (LDA) and topic modeling: models, applications, a survey’,Multimed Tools Appl78
Kapadia, S. (2019), ‘Topic Modeling in Python: Latent Dirichlet Allocation (LDA)’,towards data science
Kontostathis, A. (2007), ‘Essential Dimensions of Latent Semantic Indexing (LSI)’,De-partment of Mathematics and Computer Science. Ursinus College
Lane, H., Hapke, H. & Howard, C. (2019),Natural Language Processing in Action: Un-derstanding, analyzing, and generating text with Python, Manning Publications
Manning, C. D. & Sch ̈utze, H. (1999),Foundations of Statistical Natural Language Pro-cessing, MIT Press
Arley Rincon, W. (2014). Preguntas abiertas en encuestas¿ c ́omo realizar su an ́alisis?Bogot ́a
Griffiths, T. (2004). Gibbs Sampling in the Generative Model of Latent Dirichlet Allo-cation. USA.
Griffiths, T. a. (2004). Finding Scientific Topics. USA: Proceedings of the National Aca-demy of Sciences of the United States of America
kedarps. (2019). https://stats.stackexchange.com. Retrieved from https://stats.stackexchange.com/users/148774/kedarps
Zvornicanin, E. (2021). When Coherence Score is Good or Bad in Topic Modeling? LosAngeles.
Pritchard JK, S. M. (2000). Inference of population structure using multilocus genotypedata. In Genetics 155 (pp. 945-959)
0Barrios Arce, J. (26 de julio de 2019). www.juanbarrios.com.Obtenido de https://www.juanbarrios.com/la-matriz-de-confusion-y-sus-metricas/
Davis, J. (2006). The Relationship Between Precision-Recall and ROC Curves. Madison,WI, USA.
Geigle, C. (2017). Inference Methods for Latent Dirichlet Allocation. Illinois
Ponweiser, M. (2012). Latent Dirichlet Allocation in R. Vienna.
Speh , J., Muhic , A., Rupnik, J. (2021). Parameter Estimation for the Latent DirichletAllocation. Eslovenia
Roder, M., Both, A., Rosner, F., Et.Al. (2014). Evaluating topic coherence measures.Cornell University.
AFP. (25 de mayo de 2021). El paro influy ́o en imagen desfavorable de Duque y la Polic ́ıa.Portafolio
Ahlgren, M. (18 de agosto de 2021). www.websiterating.com. Obtenido de M ́as de 50 es-tad ́ısticas y datos de Twitter: https://www.websiterating.com/es/research/twitter-statistics
Alvino, C. (12 de abril de 2021). Estad ́ısticas de la situaci ́on digital de Colombia en el2020-2021. Obtenido de branch.com.co: https://branch.com.co/marketing-digital/estadisticas-de-la-situacion-digital-de-colombia-en-el-2020-2021/
Haselmayer, M., Jenny, M. (2016). Sentiment analysis of political communication: com-bining a dictionary approach with crowdcoding. Springer
Mainou, R. G. (13 de agosto de 2019). Autoestima, validaci ́on y redes sociales. El Eco-nomista.
valora analitik. (30 de abril de 2021). Desempleo Colombia: marzo con la menor tasa des-de la pandemia. Obtenido de https://www.valoraanalitik.com/2021/04/30/desempleo-colombia-con-la-menor-tasa-desde-la-pandemia/
Besancon, R., Rajman, M. (2013). Text Mining: Natural Language techniques and TextMining applications. Swiss Federal Institute of Technology.
Blei, D. M., Ng, A. Y., Jordan, M. I. (2003). Latent Dirichlet Allocation. Journal ofMachine Learning Research, 993-1022.
Dave, M., Sharma, V. (2012). SQL and NoSQL Databases. International Journal ofAdvanced Research in Computer Science and Software Engineering.
Hart, P., Duda, R. (1973). Pattern Classification and Scene Analysis. John Wiley andSons
Kontostathis, A. (2004). Essential Dimensions of Latent Semantic Indexing (LSI). UrsinusCollege.
Lin, J. (2016). On The Dirichlet Distribution. Queen’s University
van Zyl , C. (2018). Frequentist and Bayesian inference: A conceptual primer. New Ideasin Psychology, 44-49.
V ́azquez Marcos, J. (2017). Modelado de T ́opicos para perfilado de Blogs. Madrid: UNI-VERSIDAD CARLOS III DE MADRID
dc.rights.*.fl_str_mv CC0 1.0 Universal
dc.rights.uri.*.fl_str_mv http://creativecommons.org/publicdomain/zero/1.0/
dc.rights.local.spa.fl_str_mv Abierto (Texto Completo)
dc.rights.accessrights.none.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.coar.none.fl_str_mv http://purl.org/coar/access_right/c_abf2
rights_invalid_str_mv CC0 1.0 Universal
http://creativecommons.org/publicdomain/zero/1.0/
Abierto (Texto Completo)
http://purl.org/coar/access_right/c_abf2
eu_rights_str_mv openAccess
dc.format.mimetype.spa.fl_str_mv text/html
dc.coverage.campus.spa.fl_str_mv CRAI-USTA Bogotá
dc.publisher.spa.fl_str_mv Universidad Santo Tomás
dc.publisher.program.spa.fl_str_mv Rregrado estadística
dc.publisher.faculty.spa.fl_str_mv Facultad de estadística
institution Universidad Santo Tomás
bitstream.url.fl_str_mv https://repository.usta.edu.co/bitstream/11634/43303/4/license_rdf
https://repository.usta.edu.co/bitstream/11634/43303/5/license.txt
https://repository.usta.edu.co/bitstream/11634/43303/1/2022manueldiaz.pdf
https://repository.usta.edu.co/bitstream/11634/43303/2/Carta_autorizacion_autoarchivo_autor_2021%20%281%29.pdf
https://repository.usta.edu.co/bitstream/11634/43303/3/Carta%20Autorizacion%20Facultad.pdf
https://repository.usta.edu.co/bitstream/11634/43303/6/2022manueldiaz.pdf.jpg
https://repository.usta.edu.co/bitstream/11634/43303/7/Carta_autorizacion_autoarchivo_autor_2021%20%281%29.pdf.jpg
https://repository.usta.edu.co/bitstream/11634/43303/8/Carta%20Autorizacion%20Facultad.pdf.jpg
bitstream.checksum.fl_str_mv 42fd4ad1e89814f5e4a476b409eb708c
aedeaf396fcd827b537c73d23464fc27
93690295604d60d978cee7e3771a441c
6368181ce1c720b2b6605664397680a1
9f091e60baa531328800b4b5d51dcdda
16d1a89b7406fc6aa3c98f7b0540b622
402d709bcfb417f10d9bc7a0a197be6a
88c5ae1d8a85acaa0b69a37329012996
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio Universidad Santo Tomás
repository.mail.fl_str_mv repositorio@usantotomas.edu.co
_version_ 1782026283143659520
spelling Rincon Gomez, William ArleyDiaz Rubiano, Manuel Alejandrohttps://orcid.org/0000-0002-4419-1270https://scholar.google.com/citations?hl=es&user=5z4hIPgAAAAJhttps://scienti.minciencias.gov.co/cvlac/visualizador/generarCurriculoCv.do?cod_rh=0000571776&lang=es2022-02-17T21:50:19Z2022-02-17T21:50:19Z2022-02-17Diaz, M. (2022). Análisis de Temas Utilizando Twitter: una Aplicación del Modelo LDA al Caso Colombiano. [Trabajo de pregrado, Universidad Santo Tomas]. Repositorio instucionalhttp://hdl.handle.net/11634/43303reponame:Repositorio Institucional Universidad Santo Tomásinstname:Universidad Santo Tomásrepourl:https://repository.usta.edu.coEn la actualidad, los avances tecnológicos han logrado que las personas estén cada vez más conectadas entre sí. Las redes sociales han facilitado la comunicación instantánea no solo entre personas que se conocen ya sea por ser amigos, familiares, pareja, sino también entre personas desconocidas que comparten cosas en común, o nada en común. De acuerdo con (Alvino, 2021), Twitter es una de las redes sociales más usadas en el mundo, con más de 322 millones de usuarios ha cifras del mes de julio del año 2021, y se basa en la publicación de microblogs en los cuales las personas publican por escrito principalmente, lo que están pensando en el momento. Es una red social perfecta para aquellas personas que, por su reconocimiento o fama, pueden influir fácilmente con sus opiniones, gracias a su gran número de admiradores o seguidores. Twitter en los últimos años ha diseñado una API la cual permite poder conectarse a la información que cada segundo se produce en su plataforma, de los más de 322 millones de usuarios. Para acceder a esta información, se utilizan 2 lenguajes de programación principales: R y Python. En el actual trabajo, se utiliza la API de Twitter, pues gracias a esta herramienta, se pueden descargar los datos, las opiniones que se están posteando en tiempo real a cada minuto en la red social. Con estos datos, se pueden realizar análisis, por ejemplo, análisis exploratorios sobre las opiniones de las personas, que piensan de las elecciones locales en las ciudades capitales, pues se pueden aplicar diferentes tipos de filtros de ubicación, y obtener datos de ciudades en específico, lo cual se realiza en este trabajo. Con lo anterior, también se usará distintas técnicas de Procesamiento del Lenguaje Natural (NLP), para poder obtener conclusiones correspondientes a los temas de interés, y a través de los hallazgos, obtener resultados. La principal técnica que se usó en el siguiente trabajo corresponde a las técnica de modelado de tópicos, en especial, el modelo LDA (\textit{Latent Dirichlet Allocation} por sus siglas en ingles). La asignación de Dirichlet Latente (LDA) es un modelo estadístico generativo que permite explicar conjuntos de observaciones mediante grupos no observados que explican por qué algunas partes de los datos son similares (Blei et.al 2003). Se puede decir que existen dos clases de modelados de tópicos, que son los modelos de tópicos lineares y los modelos de tópicos probabilísticos. Un ejemplo del modelo lineal es el modelo de Asignación Semántica Latente (LSA) y un ejemplo del modelo probabilístico es el modelo de Asignación de Dirichlet Latente, que es el modelo principal del actual trabajo. Se han desarrollado trabajos similares, el cual uno de ellos es el de Guarnizo, E. \& Monroy, A. (2021), en el cual se trato de inferir la aceptabilidad publica sobre el tema de la jurisdicción especial para la paz, utilizando opiniones sobre este tema en específico, tomado de redes sociales. Estos resultados se pueden implementar en cuestiones de política pública, o de influencia política, teniendo en cuenta el panorama pre electoral que afronta Colombia, y aún más con los sucesos como la pandemia de Covid 19, el Paro Nacional, o el recrudecimiento de la violencia. (Haselmayer & Jenny, 2016)According to (Alvino, 2021), Twitter is one of the most used social networks in the world, with more than 322 million users has figures for the month of July 2021, and is based on the publication of microblogs in which people mainly publish in writing what they are thinking at the moment. It is a perfect social network for those people who, due to their recognition or fame, can easily influence their opinions, thanks to their large number of fans or followers. Twitter in recent years has designed an API which allows you to connect to the information that is produced every second on its platform, from the more than 322 million users. To access this information, 2 main programming languages are used: R and Python. In the current work, the Twitter API is used, because thanks to this tool, you can download the data, the opinions that are being posted in real time every minute on the social network. With this data, analyzes can be carried out, for example, exploratory analyzes on people's opinions about local elections in capital cities, since different types of location filters can be applied, and data can be obtained from specific cities, which is done in this job. In addition, the classification will be made between whether what users post has a positive or negative feeling. With the above, different Natural Language Processing (NLP) techniques will also be used, in order to obtain conclusions corresponding to the topics of interest, and through the findings, obtain results. The main technique that will be used in the following work corresponds to topic modeling techniques, especially the LDA (\textit{Latent Dirichlet Allocation} model). The Latent Dirichlet Allocation (LDA) is a generative statistical model that allows explaining sets of observations by means of unobserved groups that explain why some parts of the data are similar (Blei et.al 2003). It can be said that there are two kinds of topic modeling, which are linear topic models and probabilistic topic models. An example of the linear model is the Latent Semantic Assignment (LSA) model and an example of the probabilistic model is the Dirichlet Latent Assignment model, which is the main model of real work. Similar works have been developed, one of which is Guarnizo, E. \& Monroy, A. (2021), in which public acceptability on the subject of the special jurisdiction for peace was tried to be inferred, using opinions on this specific topic, taken from social networks. These results can be implemented in matters of public policy, or political influence, taking into account the pre-electoral panorama that Colombia faces, and even more so with events such as the Covid 19 pandemic, the National Strike, or the resurgence of violence. (Haselmayer & Jenny, 2016)Profesional en estadísticaPregradotext/htmlspaUniversidad Santo TomásRregrado estadísticaFacultad de estadísticaCC0 1.0 Universalhttp://creativecommons.org/publicdomain/zero/1.0/Abierto (Texto Completo)info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Análisis de temas utilizando Twitter: una aplicación del modelo LDA al caso Colombiano.N-gramsStemmingLemmatizationClusterAlgorithmNaive BayesPython LanguageTwitterROC CurveConfusion MatrixUnbalanced Data}Matriz de Confusión-- EstadísticaCurva ROCDatos-- No BalanceadosUnigramaBigramaStemmingLematizaciónClusterAlgoritmoNaive BayesLenguaje PythonTwitterCurva ROCMatriz de ConfusiónDatos no BalanceadosTrabajo de gradoinfo:eu-repo/semantics/acceptedVersionFormación de Recurso Humano para la Ctel: Trabajo de grado de Pregradohttp://purl.org/coar/resource_type/c_7a1finfo:eu-repo/semantics/bachelorThesisCRAI-USTA BogotáBengfort, B., Bilbro, R. & Ojeda, T. (2018),Applied Text Analysis with Python: EnablingLanguage-Aware Data Products with Machine Learning, O’Reilly Media, IncB ́ecue M ́onica, L. L. (1992), ‘El analisis estadistico de datos textuales. La lectura seg ́un losescolares de ense ̃nanza primaria.’,Anuario de Psicolog ́ıa. Universitat de Barcelona.Golberg, Y. (2017),Neural Network Methods in Natural Language Processing, Morgan &Claypool PublishersGuarnizo, E. & Monroy, A. (2020), Implementaci ́on de un modelo de An ́alisis de sen-timientos con respecto a la JEP basado en miner ́ıa de datos en twitter, Master’sthesis, Universidad Cat ́olica de Colombia, Colombia.Hammoe, L. (2018), Detecci ́on de T ́opicos utilizando el modelo LDA, Master’s thesis,Instituto Tecnol ́ogico de Buenos Aires, ArgentinaHern ́andez, H. (2020), Integraci ́on de Data Mining sobre noticias para predicci ́on demercados financieros, Master’s thesis, Universidad Polit ́ecnica de Madrid, Espa ̃naIngersoll, G., Morton, T. & Farris, D. (2013),Taming Text: How to Find, Organize, andManipulate It, Manning Publications.Jelodar, H., Wang, Y., Yuan, C., Feng, X., Jiang, X., Li, Y. & Zhao, L. (2019), ‘La-tent Dirichlet allocation (LDA) and topic modeling: models, applications, a survey’,Multimed Tools Appl78Kapadia, S. (2019), ‘Topic Modeling in Python: Latent Dirichlet Allocation (LDA)’,towards data scienceKontostathis, A. (2007), ‘Essential Dimensions of Latent Semantic Indexing (LSI)’,De-partment of Mathematics and Computer Science. Ursinus CollegeLane, H., Hapke, H. & Howard, C. (2019),Natural Language Processing in Action: Un-derstanding, analyzing, and generating text with Python, Manning PublicationsManning, C. D. & Sch ̈utze, H. (1999),Foundations of Statistical Natural Language Pro-cessing, MIT PressArley Rincon, W. (2014). Preguntas abiertas en encuestas¿ c ́omo realizar su an ́alisis?Bogot ́aGriffiths, T. (2004). Gibbs Sampling in the Generative Model of Latent Dirichlet Allo-cation. USA.Griffiths, T. a. (2004). Finding Scientific Topics. USA: Proceedings of the National Aca-demy of Sciences of the United States of Americakedarps. (2019). https://stats.stackexchange.com. Retrieved from https://stats.stackexchange.com/users/148774/kedarpsZvornicanin, E. (2021). When Coherence Score is Good or Bad in Topic Modeling? LosAngeles.Pritchard JK, S. M. (2000). Inference of population structure using multilocus genotypedata. In Genetics 155 (pp. 945-959)0Barrios Arce, J. (26 de julio de 2019). www.juanbarrios.com.Obtenido de https://www.juanbarrios.com/la-matriz-de-confusion-y-sus-metricas/Davis, J. (2006). The Relationship Between Precision-Recall and ROC Curves. Madison,WI, USA.Geigle, C. (2017). Inference Methods for Latent Dirichlet Allocation. IllinoisPonweiser, M. (2012). Latent Dirichlet Allocation in R. Vienna.Speh , J., Muhic , A., Rupnik, J. (2021). Parameter Estimation for the Latent DirichletAllocation. EsloveniaRoder, M., Both, A., Rosner, F., Et.Al. (2014). Evaluating topic coherence measures.Cornell University.AFP. (25 de mayo de 2021). El paro influy ́o en imagen desfavorable de Duque y la Polic ́ıa.PortafolioAhlgren, M. (18 de agosto de 2021). www.websiterating.com. Obtenido de M ́as de 50 es-tad ́ısticas y datos de Twitter: https://www.websiterating.com/es/research/twitter-statisticsAlvino, C. (12 de abril de 2021). Estad ́ısticas de la situaci ́on digital de Colombia en el2020-2021. Obtenido de branch.com.co: https://branch.com.co/marketing-digital/estadisticas-de-la-situacion-digital-de-colombia-en-el-2020-2021/Haselmayer, M., Jenny, M. (2016). Sentiment analysis of political communication: com-bining a dictionary approach with crowdcoding. SpringerMainou, R. G. (13 de agosto de 2019). Autoestima, validaci ́on y redes sociales. El Eco-nomista.valora analitik. (30 de abril de 2021). Desempleo Colombia: marzo con la menor tasa des-de la pandemia. Obtenido de https://www.valoraanalitik.com/2021/04/30/desempleo-colombia-con-la-menor-tasa-desde-la-pandemia/Besancon, R., Rajman, M. (2013). Text Mining: Natural Language techniques and TextMining applications. Swiss Federal Institute of Technology.Blei, D. M., Ng, A. Y., Jordan, M. I. (2003). Latent Dirichlet Allocation. Journal ofMachine Learning Research, 993-1022.Dave, M., Sharma, V. (2012). SQL and NoSQL Databases. International Journal ofAdvanced Research in Computer Science and Software Engineering.Hart, P., Duda, R. (1973). Pattern Classification and Scene Analysis. John Wiley andSonsKontostathis, A. (2004). Essential Dimensions of Latent Semantic Indexing (LSI). UrsinusCollege.Lin, J. (2016). On The Dirichlet Distribution. Queen’s Universityvan Zyl , C. (2018). Frequentist and Bayesian inference: A conceptual primer. New Ideasin Psychology, 44-49.V ́azquez Marcos, J. (2017). Modelado de T ́opicos para perfilado de Blogs. Madrid: UNI-VERSIDAD CARLOS III DE MADRIDCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8701https://repository.usta.edu.co/bitstream/11634/43303/4/license_rdf42fd4ad1e89814f5e4a476b409eb708cMD54open accessLICENSElicense.txtlicense.txttext/plain; charset=utf-8807https://repository.usta.edu.co/bitstream/11634/43303/5/license.txtaedeaf396fcd827b537c73d23464fc27MD55open accessORIGINAL2022manueldiaz.pdf2022manueldiaz.pdfapplication/pdf1405351https://repository.usta.edu.co/bitstream/11634/43303/1/2022manueldiaz.pdf93690295604d60d978cee7e3771a441cMD51open accessCarta_autorizacion_autoarchivo_autor_2021 (1).pdfCarta_autorizacion_autoarchivo_autor_2021 (1).pdfapplication/pdf889213https://repository.usta.edu.co/bitstream/11634/43303/2/Carta_autorizacion_autoarchivo_autor_2021%20%281%29.pdf6368181ce1c720b2b6605664397680a1MD52metadata only accessCarta Autorizacion Facultad.pdfCarta Autorizacion Facultad.pdfapplication/pdf203558https://repository.usta.edu.co/bitstream/11634/43303/3/Carta%20Autorizacion%20Facultad.pdf9f091e60baa531328800b4b5d51dcddaMD53metadata only accessTHUMBNAIL2022manueldiaz.pdf.jpg2022manueldiaz.pdf.jpgIM Thumbnailimage/jpeg6985https://repository.usta.edu.co/bitstream/11634/43303/6/2022manueldiaz.pdf.jpg16d1a89b7406fc6aa3c98f7b0540b622MD56open accessCarta_autorizacion_autoarchivo_autor_2021 (1).pdf.jpgCarta_autorizacion_autoarchivo_autor_2021 (1).pdf.jpgIM Thumbnailimage/jpeg7684https://repository.usta.edu.co/bitstream/11634/43303/7/Carta_autorizacion_autoarchivo_autor_2021%20%281%29.pdf.jpg402d709bcfb417f10d9bc7a0a197be6aMD57open accessCarta Autorizacion Facultad.pdf.jpgCarta Autorizacion Facultad.pdf.jpgIM Thumbnailimage/jpeg8602https://repository.usta.edu.co/bitstream/11634/43303/8/Carta%20Autorizacion%20Facultad.pdf.jpg88c5ae1d8a85acaa0b69a37329012996MD58open access11634/43303oai:repository.usta.edu.co:11634/433032022-11-14 03:04:45.402open accessRepositorio Universidad Santo Tomásrepositorio@usantotomas.edu.coQXV0b3Jpem8gYWwgQ2VudHJvIGRlIFJlY3Vyc29zIHBhcmEgZWwgQXByZW5kaXphamUgeSBsYSBJbnZlc3RpZ2FjacOzbiwgQ1JBSS1VU1RBCmRlIGxhIFVuaXZlcnNpZGFkIFNhbnRvIFRvbcOhcywgcGFyYSBxdWUgY29uIGZpbmVzIGFjYWTDqW1pY29zIGFsbWFjZW5lIGxhCmluZm9ybWFjacOzbiBpbmdyZXNhZGEgcHJldmlhbWVudGUuCgpTZSBwZXJtaXRlIGxhIGNvbnN1bHRhLCByZXByb2R1Y2Npw7NuIHBhcmNpYWwsIHRvdGFsIG8gY2FtYmlvIGRlIGZvcm1hdG8gY29uCmZpbmVzIGRlIGNvbnNlcnZhY2nDs24sIGEgbG9zIHVzdWFyaW9zIGludGVyZXNhZG9zIGVuIGVsIGNvbnRlbmlkbyBkZSBlc3RlCnRyYWJham8sIHBhcmEgdG9kb3MgbG9zIHVzb3MgcXVlIHRlbmdhbiBmaW5hbGlkYWQgYWNhZMOpbWljYSwgc2llbXByZSB5IGN1YW5kbwptZWRpYW50ZSBsYSBjb3JyZXNwb25kaWVudGUgY2l0YSBiaWJsaW9ncsOhZmljYSBzZSBsZSBkw6kgY3LDqWRpdG8gYWwgdHJhYmFqbyBkZQpncmFkbyB5IGEgc3UgYXV0b3IuIERlIGNvbmZvcm1pZGFkIGNvbiBsbyBlc3RhYmxlY2lkbyBlbiBlbCBhcnTDrWN1bG8gMzAgZGUgbGEKTGV5IDIzIGRlIDE5ODIgeSBlbCBhcnTDrWN1bG8gMTEgZGUgbGEgRGVjaXNpw7NuIEFuZGluYSAzNTEgZGUgMTk5Mywg4oCcTG9zIGRlcmVjaG9zCm1vcmFsZXMgc29icmUgZWwgdHJhYmFqbyBzb24gcHJvcGllZGFkIGRlIGxvcyBhdXRvcmVz4oCdLCBsb3MgY3VhbGVzIHNvbgppcnJlbnVuY2lhYmxlcywgaW1wcmVzY3JpcHRpYmxlcywgaW5lbWJhcmdhYmxlcyBlIGluYWxpZW5hYmxlcy4K