Detección de palabras clave en el análisis de sentimiento de tweets usando técnicas de ML

RESUMEN : El desarrollo del presente trabajo se basa en identificar las palabras claves que manifiestan la carga de sentimiento clasificados como positivo, negativo y neutral sobre un conjunto de tweets. Se diseñaron 7 modelos, dos de ellos con redes neuronales convolucionales y redes neuronales rec...

Full description

Autores:: Mazo Correa, Julián David

Tipo de recurso:: Tesis

Fecha de publicación:: 2021

Institución:: Universidad de Antioquia

Repositorio:: Repositorio UdeA

Idioma:: spa

id	UDEA2_1228dfc4d75cdcd2ec784f931d141c2a
oai_identifier_str	oai:bibliotecadigital.udea.edu.co:10495/24326
network_acronym_str	UDEA2
network_name_str	Repositorio UdeA
repository_id_str
dc.title.spa.fl_str_mv	Detección de palabras clave en el análisis de sentimiento de tweets usando técnicas de ML
title	Detección de palabras clave en el análisis de sentimiento de tweets usando técnicas de ML
spellingShingle	Detección de palabras clave en el análisis de sentimiento de tweets usando técnicas de ML Lingüística computacional Lexicografía-procesamiento de datos Lexicología-procesamiento de datos Redes neurales (computadores) Aprendizaje electrónico Machine learning Carga de sentimiento Twitter http://aims.fao.org/aos/agrovoc/c_49834
title_short	Detección de palabras clave en el análisis de sentimiento de tweets usando técnicas de ML
title_full	Detección de palabras clave en el análisis de sentimiento de tweets usando técnicas de ML
title_fullStr	Detección de palabras clave en el análisis de sentimiento de tweets usando técnicas de ML
title_full_unstemmed	Detección de palabras clave en el análisis de sentimiento de tweets usando técnicas de ML
title_sort	Detección de palabras clave en el análisis de sentimiento de tweets usando técnicas de ML
dc.creator.fl_str_mv	Mazo Correa, Julián David
dc.contributor.advisor.none.fl_str_mv	Arias Londoño, Julian David
dc.contributor.author.none.fl_str_mv	Mazo Correa, Julián David
dc.subject.lemb.none.fl_str_mv	Lingüística computacional Lexicografía-procesamiento de datos Lexicología-procesamiento de datos Redes neurales (computadores)
topic	Lingüística computacional Lexicografía-procesamiento de datos Lexicología-procesamiento de datos Redes neurales (computadores) Aprendizaje electrónico Machine learning Carga de sentimiento Twitter http://aims.fao.org/aos/agrovoc/c_49834
dc.subject.agrovoc.none.fl_str_mv	Aprendizaje electrónico Machine learning
dc.subject.proposal.spa.fl_str_mv	Carga de sentimiento Twitter
dc.subject.agrovocuri.none.fl_str_mv	http://aims.fao.org/aos/agrovoc/c_49834
description	RESUMEN : El desarrollo del presente trabajo se basa en identificar las palabras claves que manifiestan la carga de sentimiento clasificados como positivo, negativo y neutral sobre un conjunto de tweets. Se diseñaron 7 modelos, dos de ellos con redes neuronales convolucionales y redes neuronales recurrentes para el etiquetado de sentimiento como ejercicio de ilustración ya que los tweets están previamente anotados, un baseline que implementan 3 estrategias de preprocesamiento de texto para la salida e implementación de arquitecturas con capas de BERT y RoBERTa, estos para detectar las palabras claves del tweet que poseen la carga de sentimiento el cual es objetivo principal de la tarea. El modelo que mejor resultados arrojó según la métrica del índice de Jaccard fue el implementado con RoBERTa con un valor de 0.749, es importante anotar que uno de los baseline implementado con una capa de embedding a partir de una matriz de coocurrencia generada por la técnica Glove haya obtenido un valor de 0.586 del promedio del índice de Jaccard por encima de la implementación con BERT que fue del 0.549 sobre la misma métrica. La exploración de los datos evidenció que la eliminación de caracteres especiales y palabras con poco significado semántico permiten mejorar el desempeño de los modelos además la creación de estrategias de preprocesamiento de texto para la variable objetivo ayuda a implementar un baseline con un buen desempeño para regirse como punto de referencia en el diseño de modelos más robustos.
publishDate	2021
dc.date.accessioned.none.fl_str_mv	2021-11-24T16:59:21Z
dc.date.available.none.fl_str_mv	2021-11-24T16:59:21Z
dc.date.issued.none.fl_str_mv	2021
dc.type.spa.fl_str_mv	Tesis/Trabajo de grado - Monografía - Especialización
dc.type.coar.spa.fl_str_mv	http://purl.org/coar/resource_type/c_46ec
dc.type.redcol.spa.fl_str_mv	http://purl.org/redcol/resource_type/COther
dc.type.coarversion.spa.fl_str_mv	http://purl.org/coar/version/c_b1a7d7d4d402bcce
dc.type.driver.spa.fl_str_mv	info:eu-repo/semantics/other
dc.type.version.spa.fl_str_mv	info:eu-repo/semantics/draft
format	http://purl.org/coar/resource_type/c_46ec
status_str	draft
dc.identifier.uri.none.fl_str_mv	http://hdl.handle.net/10495/24326
url	http://hdl.handle.net/10495/24326
dc.language.iso.spa.fl_str_mv	spa
language	spa
dc.rights.uri.*.fl_str_mv	http://creativecommons.org/licenses/by-nc-nd/2.5/co/
dc.rights.uri.spa.fl_str_mv	https://creativecommons.org/licenses/by-nc-sa/4.0/
dc.rights.accessrights.spa.fl_str_mv	info:eu-repo/semantics/openAccess
dc.rights.coar.spa.fl_str_mv	http://purl.org/coar/access_right/c_abf2
rights_invalid_str_mv	http://creativecommons.org/licenses/by-nc-nd/2.5/co/ https://creativecommons.org/licenses/by-nc-sa/4.0/ http://purl.org/coar/access_right/c_abf2
eu_rights_str_mv	openAccess
dc.format.mimetype.spa.fl_str_mv	application/pdf
dc.publisher.spa.fl_str_mv	Universidad de Antioquia
dc.publisher.place.spa.fl_str_mv	Medellín
dc.publisher.faculty.spa.fl_str_mv	Facultad de Ingeniería. Especialización en Analítica y Ciencia de Datos
institution	Universidad de Antioquia
bitstream.url.fl_str_mv	https://bibliotecadigital.udea.edu.co/bitstreams/a875b8af-a344-4b93-ad11-ffea4fbbe449/download https://bibliotecadigital.udea.edu.co/bitstreams/3c823e85-382b-46fe-bd94-bcd2fff829b1/download https://bibliotecadigital.udea.edu.co/bitstreams/b0c022b4-d514-4ce9-919e-fca69cea3b58/download https://bibliotecadigital.udea.edu.co/bitstreams/8f019cc3-23b3-4656-8282-5e3f2f615893/download https://bibliotecadigital.udea.edu.co/bitstreams/02b662f3-9ee3-49fa-b08a-2c9dac238f6f/download
bitstream.checksum.fl_str_mv	8a4605be74aa9ea9d79846c1fba20a33 4eb641ea6a9e6e874a83b417a1e066f2 b88b088d9957e670ce3b3fbe2eedbc13 b076f5dab6ff243b840d37b3cb79dc7f f4b2302774648eb675597f319cd3bf26
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5 MD5 MD5
repository.name.fl_str_mv	Repositorio Institucional de la Universidad de Antioquia
repository.mail.fl_str_mv	aplicacionbibliotecadigitalbiblioteca@udea.edu.co
_version_	1851052113493229568
spelling	Arias Londoño, Julian DavidMazo Correa, Julián David2021-11-24T16:59:21Z2021-11-24T16:59:21Z2021http://hdl.handle.net/10495/24326RESUMEN : El desarrollo del presente trabajo se basa en identificar las palabras claves que manifiestan la carga de sentimiento clasificados como positivo, negativo y neutral sobre un conjunto de tweets. Se diseñaron 7 modelos, dos de ellos con redes neuronales convolucionales y redes neuronales recurrentes para el etiquetado de sentimiento como ejercicio de ilustración ya que los tweets están previamente anotados, un baseline que implementan 3 estrategias de preprocesamiento de texto para la salida e implementación de arquitecturas con capas de BERT y RoBERTa, estos para detectar las palabras claves del tweet que poseen la carga de sentimiento el cual es objetivo principal de la tarea. El modelo que mejor resultados arrojó según la métrica del índice de Jaccard fue el implementado con RoBERTa con un valor de 0.749, es importante anotar que uno de los baseline implementado con una capa de embedding a partir de una matriz de coocurrencia generada por la técnica Glove haya obtenido un valor de 0.586 del promedio del índice de Jaccard por encima de la implementación con BERT que fue del 0.549 sobre la misma métrica. La exploración de los datos evidenció que la eliminación de caracteres especiales y palabras con poco significado semántico permiten mejorar el desempeño de los modelos además la creación de estrategias de preprocesamiento de texto para la variable objetivo ayuda a implementar un baseline con un buen desempeño para regirse como punto de referencia en el diseño de modelos más robustos.ABSTRACT : The present work is focused on identifying the keywords that manifest the sentiment load classified as positive, negative, and neutral on a set of tweets. 7 models were designed, two of them with convolutional neural networks and recurrent neural networks for the labeling of sentiment as an illustration exercise since the tweets are previously annotated, a baseline that implements 3 text preprocessing strategies for the output and implementation of architectures with layers of BERT and RoBERTa, these to detect the keywords of the tweet that have the sentiment load which is the main objective of the task. The model that produced the best results according to the Jaccard index metric was the one implemented with RoBERTa with a value of 0.749, it is important to note that one of the baselines implemented with an embedding layer from a co-occurrence matrix generated by the Glove technique obtained a value of 0.586 from the average of the Jaccard index above the implementation with BERT which was 0.549 on the same metric. The exploration of the data showed that the elimination of special characters and words with little semantic meaning allow to improve the performance of the models, and the creation of text preprocessing strategies for the target variable helps to implement a baseline with a good performance to be governed as benchmark for the design of more robust models.EspecializaciónEspecialista en Analítica y Ciencia de Datosapplication/pdfspaUniversidad de AntioquiaMedellínFacultad de Ingeniería. Especialización en Analítica y Ciencia de Datoshttp://creativecommons.org/licenses/by-nc-nd/2.5/co/https://creativecommons.org/licenses/by-nc-sa/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Detección de palabras clave en el análisis de sentimiento de tweets usando técnicas de MLTesis/Trabajo de grado - Monografía - Especializaciónhttp://purl.org/coar/resource_type/c_46echttp://purl.org/redcol/resource_type/COtherhttp://purl.org/coar/version/c_b1a7d7d4d402bcceinfo:eu-repo/semantics/otherinfo:eu-repo/semantics/draftLingüística computacionalLexicografía-procesamiento de datosLexicología-procesamiento de datosRedes neurales (computadores)Aprendizaje electrónicoMachine learningCarga de sentimientoTwitterhttp://aims.fao.org/aos/agrovoc/c_49834PublicationLICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://bibliotecadigital.udea.edu.co/bitstreams/a875b8af-a344-4b93-ad11-ffea4fbbe449/download8a4605be74aa9ea9d79846c1fba20a33MD55falseAnonymousREADORIGINALMazoJulian_2021_PalabrasDeteccionSentimiento.pdfMazoJulian_2021_PalabrasDeteccionSentimiento.pdfTrabajo de grado de especializaciónapplication/pdf982865https://bibliotecadigital.udea.edu.co/bitstreams/3c823e85-382b-46fe-bd94-bcd2fff829b1/download4eb641ea6a9e6e874a83b417a1e066f2MD53trueAnonymousREADCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8823https://bibliotecadigital.udea.edu.co/bitstreams/b0c022b4-d514-4ce9-919e-fca69cea3b58/downloadb88b088d9957e670ce3b3fbe2eedbc13MD54falseAnonymousREADTEXTMazoJulian_2021_PalabrasDeteccionSentimiento.pdf.txtMazoJulian_2021_PalabrasDeteccionSentimiento.pdf.txtExtracted texttext/plain61368https://bibliotecadigital.udea.edu.co/bitstreams/8f019cc3-23b3-4656-8282-5e3f2f615893/downloadb076f5dab6ff243b840d37b3cb79dc7fMD510falseAnonymousREADTHUMBNAILMazoJulian_2021_PalabrasDeteccionSentimiento.pdf.jpgMazoJulian_2021_PalabrasDeteccionSentimiento.pdf.jpgGenerated Thumbnailimage/jpeg6481https://bibliotecadigital.udea.edu.co/bitstreams/02b662f3-9ee3-49fa-b08a-2c9dac238f6f/downloadf4b2302774648eb675597f319cd3bf26MD511falseAnonymousREAD10495/24326oai:bibliotecadigital.udea.edu.co:10495/243262025-03-26 17:10:36.308http://creativecommons.org/licenses/by-nc-nd/2.5/co/open.accesshttps://bibliotecadigital.udea.edu.coRepositorio Institucional de la Universidad de Antioquiaaplicacionbibliotecadigitalbiblioteca@udea.edu.coTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=

Detección de palabras clave en el análisis de sentimiento de tweets usando técnicas de ML

Publicaciones similares