Análisis de contenido de texto basado en procesamiento de lenguaje natural con BERT

Este artículo se centra en tratar de aliviar los problemas relacionados con el análisis de contenido. Discutiremos el uso de diferentes modelos de clasificación en el aprendizaje automático. Adoptamos este enfoque para resolver algunos problemas relacionados con el análisis cualitativo, como la fiab...

Full description

Autores:
González, Jairo
Angulo, Jesús
Andrés, Meza
Tipo de recurso:
Fecha de publicación:
2022
Institución:
Universidad del Norte
Repositorio:
Repositorio Uninorte
Idioma:
eng
OAI Identifier:
oai:manglar.uninorte.edu.co:10584/11216
Acceso en línea:
http://hdl.handle.net/10584/11216
Palabra clave:
clasificación de texto
PLN
BERT
text classification
NLP
BERT
Rights
License
Universidad del Norte
id REPOUNORT2_9853a30eefe0b4e2bb5cd7a0bc01b121
oai_identifier_str oai:manglar.uninorte.edu.co:10584/11216
network_acronym_str REPOUNORT2
network_name_str Repositorio Uninorte
repository_id_str
dc.title.es_ES.fl_str_mv Análisis de contenido de texto basado en procesamiento de lenguaje natural con BERT
dc.title.en_US.fl_str_mv Text content analysis based on natural language processing with BERT
title Análisis de contenido de texto basado en procesamiento de lenguaje natural con BERT
spellingShingle Análisis de contenido de texto basado en procesamiento de lenguaje natural con BERT
clasificación de texto
PLN
BERT
text classification
NLP
BERT
title_short Análisis de contenido de texto basado en procesamiento de lenguaje natural con BERT
title_full Análisis de contenido de texto basado en procesamiento de lenguaje natural con BERT
title_fullStr Análisis de contenido de texto basado en procesamiento de lenguaje natural con BERT
title_full_unstemmed Análisis de contenido de texto basado en procesamiento de lenguaje natural con BERT
title_sort Análisis de contenido de texto basado en procesamiento de lenguaje natural con BERT
dc.creator.fl_str_mv González, Jairo
Angulo, Jesús
Andrés, Meza
dc.contributor.advisor.none.fl_str_mv Nieto, Wilson
Palacio, Katherine
dc.contributor.author.none.fl_str_mv González, Jairo
Angulo, Jesús
Andrés, Meza
dc.subject.es_ES.fl_str_mv clasificación de texto
PLN
BERT
topic clasificación de texto
PLN
BERT
text classification
NLP
BERT
dc.subject.en_US.fl_str_mv text classification
NLP
BERT
description Este artículo se centra en tratar de aliviar los problemas relacionados con el análisis de contenido. Discutiremos el uso de diferentes modelos de clasificación en el aprendizaje automático. Adoptamos este enfoque para resolver algunos problemas relacionados con el análisis cualitativo, como la fiabilidad en el tiempo y la disminución de la mano de obra cualificada. Lo hacemos para automatizar un proceso que suele requerir cantidades considerables de tiempo y recursos, como humanos capacitados y largos plazos de entrega. Exploramos el uso de diferentes técnicas como Random Forest y K-Nearest Neighbor, también probamos diferentes métodos de bolsa de palabras para codificar el texto. También evaluamos un prototipo de la solución propuesta con Representaciones de Codificación Bidireccional de Transformadores (BERT) bajo un conjunto de datos para la detección de noticias falsas debido a las limitaciones de alcance, sin embargo, es aplicable a otro corpus y otro contexto de texto. Finalmente, con los servicios de AWS implementaremos un sistema para la creación de una API que pueda ser utilizada por el usuario común e implementada en sus sistemas de clasificación.
publishDate 2022
dc.date.accessioned.none.fl_str_mv 2022-12-06T20:20:57Z
dc.date.available.none.fl_str_mv 2022-12-06T20:20:57Z
dc.date.issued.none.fl_str_mv 2022-05-04
dc.type.es_ES.fl_str_mv article
dc.type.coar.fl_str_mv http://purl.org/coar/resource_type/c_6501
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/10584/11216
url http://hdl.handle.net/10584/11216
dc.language.iso.es_ES.fl_str_mv eng
language eng
dc.rights.es_ES.fl_str_mv Universidad del Norte
dc.rights.coar.fl_str_mv http://purl.org/coar/access_right/c_abf2
rights_invalid_str_mv Universidad del Norte
http://purl.org/coar/access_right/c_abf2
dc.publisher.es_ES.fl_str_mv Barranquilla, Universidad del Norte, 2022
institution Universidad del Norte
bitstream.url.fl_str_mv https://manglar.uninorte.edu.co/bitstream/10584/11216/1/proyecto%20final%20%20-%20%20Angulo%20Jesus%2c%20Gonzalez%20Jairo%20y%20Meza%20Andres.pdf
https://manglar.uninorte.edu.co/bitstream/10584/11216/2/license.txt
bitstream.checksum.fl_str_mv dcec40c460936ca8f09ebf37f00dfe7e
8a4605be74aa9ea9d79846c1fba20a33
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositorio Digital de la Universidad del Norte
repository.mail.fl_str_mv mauribe@uninorte.edu.co
_version_ 1812183132327116800
spelling Nieto, WilsonPalacio, KatherineGonzález, JairoAngulo, JesúsAndrés, Meza2022-12-06T20:20:57Z2022-12-06T20:20:57Z2022-05-04http://hdl.handle.net/10584/11216Este artículo se centra en tratar de aliviar los problemas relacionados con el análisis de contenido. Discutiremos el uso de diferentes modelos de clasificación en el aprendizaje automático. Adoptamos este enfoque para resolver algunos problemas relacionados con el análisis cualitativo, como la fiabilidad en el tiempo y la disminución de la mano de obra cualificada. Lo hacemos para automatizar un proceso que suele requerir cantidades considerables de tiempo y recursos, como humanos capacitados y largos plazos de entrega. Exploramos el uso de diferentes técnicas como Random Forest y K-Nearest Neighbor, también probamos diferentes métodos de bolsa de palabras para codificar el texto. También evaluamos un prototipo de la solución propuesta con Representaciones de Codificación Bidireccional de Transformadores (BERT) bajo un conjunto de datos para la detección de noticias falsas debido a las limitaciones de alcance, sin embargo, es aplicable a otro corpus y otro contexto de texto. Finalmente, con los servicios de AWS implementaremos un sistema para la creación de una API que pueda ser utilizada por el usuario común e implementada en sus sistemas de clasificación.This article focuses on trying to alleviate problems related to content analysis. We will discuss the use of different models for classification in Machine learning. We take this approach to solve some problems related to qualitative analysis, such as reliability over time and the decline of skilled labor. We do this to automate a process that usually requires considerable amounts of time and resources, such as trained humans and long lead times. We explored the use of different techniques like Random Forest and K-Nearest Neighbor, we also tried different bag of words methods to encode the text. We also evaluated a prototype of the proposed solution with Bidirectional Encoding Representations of Transformers (BERT) under a dataset for detection of fake news due to scope limitations, However, it is applicable to another corpus and other text context. Finally, with AWS services we will implement a system for the creation of an API that can be used by the common user and implemented in their classification systems.engBarranquilla, Universidad del Norte, 2022Universidad del Nortehttp://purl.org/coar/access_right/c_abf2clasificación de textoPLNBERTtext classificationNLPBERTAnálisis de contenido de texto basado en procesamiento de lenguaje natural con BERTText content analysis based on natural language processing with BERTarticlehttp://purl.org/coar/resource_type/c_6501ORIGINALproyecto final - Angulo Jesus, Gonzalez Jairo y Meza Andres.pdfproyecto final - Angulo Jesus, Gonzalez Jairo y Meza Andres.pdfapplication/pdf899425https://manglar.uninorte.edu.co/bitstream/10584/11216/1/proyecto%20final%20%20-%20%20Angulo%20Jesus%2c%20Gonzalez%20Jairo%20y%20Meza%20Andres.pdfdcec40c460936ca8f09ebf37f00dfe7eMD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://manglar.uninorte.edu.co/bitstream/10584/11216/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD5210584/11216oai:manglar.uninorte.edu.co:10584/112162022-12-06 15:20:57.593Repositorio Digital de la Universidad del Nortemauribe@uninorte.edu.coTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=