Análisis de contenido de texto basado en procesamiento de lenguaje natural con BERT
Este artículo se centra en tratar de aliviar los problemas relacionados con el análisis de contenido. Discutiremos el uso de diferentes modelos de clasificación en el aprendizaje automático. Adoptamos este enfoque para resolver algunos problemas relacionados con el análisis cualitativo, como la fiab...
- Autores:
-
González, Jairo
Angulo, Jesús
Andrés, Meza
- Tipo de recurso:
- Fecha de publicación:
- 2022
- Institución:
- Universidad del Norte
- Repositorio:
- Repositorio Uninorte
- Idioma:
- eng
- OAI Identifier:
- oai:manglar.uninorte.edu.co:10584/11216
- Acceso en línea:
- http://hdl.handle.net/10584/11216
- Palabra clave:
- clasificación de texto
PLN
BERT
text classification
NLP
BERT
- Rights
- License
- Universidad del Norte
id |
REPOUNORT2_9853a30eefe0b4e2bb5cd7a0bc01b121 |
---|---|
oai_identifier_str |
oai:manglar.uninorte.edu.co:10584/11216 |
network_acronym_str |
REPOUNORT2 |
network_name_str |
Repositorio Uninorte |
repository_id_str |
|
dc.title.es_ES.fl_str_mv |
Análisis de contenido de texto basado en procesamiento de lenguaje natural con BERT |
dc.title.en_US.fl_str_mv |
Text content analysis based on natural language processing with BERT |
title |
Análisis de contenido de texto basado en procesamiento de lenguaje natural con BERT |
spellingShingle |
Análisis de contenido de texto basado en procesamiento de lenguaje natural con BERT clasificación de texto PLN BERT text classification NLP BERT |
title_short |
Análisis de contenido de texto basado en procesamiento de lenguaje natural con BERT |
title_full |
Análisis de contenido de texto basado en procesamiento de lenguaje natural con BERT |
title_fullStr |
Análisis de contenido de texto basado en procesamiento de lenguaje natural con BERT |
title_full_unstemmed |
Análisis de contenido de texto basado en procesamiento de lenguaje natural con BERT |
title_sort |
Análisis de contenido de texto basado en procesamiento de lenguaje natural con BERT |
dc.creator.fl_str_mv |
González, Jairo Angulo, Jesús Andrés, Meza |
dc.contributor.advisor.none.fl_str_mv |
Nieto, Wilson Palacio, Katherine |
dc.contributor.author.none.fl_str_mv |
González, Jairo Angulo, Jesús Andrés, Meza |
dc.subject.es_ES.fl_str_mv |
clasificación de texto PLN BERT |
topic |
clasificación de texto PLN BERT text classification NLP BERT |
dc.subject.en_US.fl_str_mv |
text classification NLP BERT |
description |
Este artículo se centra en tratar de aliviar los problemas relacionados con el análisis de contenido. Discutiremos el uso de diferentes modelos de clasificación en el aprendizaje automático. Adoptamos este enfoque para resolver algunos problemas relacionados con el análisis cualitativo, como la fiabilidad en el tiempo y la disminución de la mano de obra cualificada. Lo hacemos para automatizar un proceso que suele requerir cantidades considerables de tiempo y recursos, como humanos capacitados y largos plazos de entrega. Exploramos el uso de diferentes técnicas como Random Forest y K-Nearest Neighbor, también probamos diferentes métodos de bolsa de palabras para codificar el texto. También evaluamos un prototipo de la solución propuesta con Representaciones de Codificación Bidireccional de Transformadores (BERT) bajo un conjunto de datos para la detección de noticias falsas debido a las limitaciones de alcance, sin embargo, es aplicable a otro corpus y otro contexto de texto. Finalmente, con los servicios de AWS implementaremos un sistema para la creación de una API que pueda ser utilizada por el usuario común e implementada en sus sistemas de clasificación. |
publishDate |
2022 |
dc.date.accessioned.none.fl_str_mv |
2022-12-06T20:20:57Z |
dc.date.available.none.fl_str_mv |
2022-12-06T20:20:57Z |
dc.date.issued.none.fl_str_mv |
2022-05-04 |
dc.type.es_ES.fl_str_mv |
article |
dc.type.coar.fl_str_mv |
http://purl.org/coar/resource_type/c_6501 |
dc.identifier.uri.none.fl_str_mv |
http://hdl.handle.net/10584/11216 |
url |
http://hdl.handle.net/10584/11216 |
dc.language.iso.es_ES.fl_str_mv |
eng |
language |
eng |
dc.rights.es_ES.fl_str_mv |
Universidad del Norte |
dc.rights.coar.fl_str_mv |
http://purl.org/coar/access_right/c_abf2 |
rights_invalid_str_mv |
Universidad del Norte http://purl.org/coar/access_right/c_abf2 |
dc.publisher.es_ES.fl_str_mv |
Barranquilla, Universidad del Norte, 2022 |
institution |
Universidad del Norte |
bitstream.url.fl_str_mv |
https://manglar.uninorte.edu.co/bitstream/10584/11216/1/proyecto%20final%20%20-%20%20Angulo%20Jesus%2c%20Gonzalez%20Jairo%20y%20Meza%20Andres.pdf https://manglar.uninorte.edu.co/bitstream/10584/11216/2/license.txt |
bitstream.checksum.fl_str_mv |
dcec40c460936ca8f09ebf37f00dfe7e 8a4605be74aa9ea9d79846c1fba20a33 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Repositorio Digital de la Universidad del Norte |
repository.mail.fl_str_mv |
mauribe@uninorte.edu.co |
_version_ |
1812183132327116800 |
spelling |
Nieto, WilsonPalacio, KatherineGonzález, JairoAngulo, JesúsAndrés, Meza2022-12-06T20:20:57Z2022-12-06T20:20:57Z2022-05-04http://hdl.handle.net/10584/11216Este artículo se centra en tratar de aliviar los problemas relacionados con el análisis de contenido. Discutiremos el uso de diferentes modelos de clasificación en el aprendizaje automático. Adoptamos este enfoque para resolver algunos problemas relacionados con el análisis cualitativo, como la fiabilidad en el tiempo y la disminución de la mano de obra cualificada. Lo hacemos para automatizar un proceso que suele requerir cantidades considerables de tiempo y recursos, como humanos capacitados y largos plazos de entrega. Exploramos el uso de diferentes técnicas como Random Forest y K-Nearest Neighbor, también probamos diferentes métodos de bolsa de palabras para codificar el texto. También evaluamos un prototipo de la solución propuesta con Representaciones de Codificación Bidireccional de Transformadores (BERT) bajo un conjunto de datos para la detección de noticias falsas debido a las limitaciones de alcance, sin embargo, es aplicable a otro corpus y otro contexto de texto. Finalmente, con los servicios de AWS implementaremos un sistema para la creación de una API que pueda ser utilizada por el usuario común e implementada en sus sistemas de clasificación.This article focuses on trying to alleviate problems related to content analysis. We will discuss the use of different models for classification in Machine learning. We take this approach to solve some problems related to qualitative analysis, such as reliability over time and the decline of skilled labor. We do this to automate a process that usually requires considerable amounts of time and resources, such as trained humans and long lead times. We explored the use of different techniques like Random Forest and K-Nearest Neighbor, we also tried different bag of words methods to encode the text. We also evaluated a prototype of the proposed solution with Bidirectional Encoding Representations of Transformers (BERT) under a dataset for detection of fake news due to scope limitations, However, it is applicable to another corpus and other text context. Finally, with AWS services we will implement a system for the creation of an API that can be used by the common user and implemented in their classification systems.engBarranquilla, Universidad del Norte, 2022Universidad del Nortehttp://purl.org/coar/access_right/c_abf2clasificación de textoPLNBERTtext classificationNLPBERTAnálisis de contenido de texto basado en procesamiento de lenguaje natural con BERTText content analysis based on natural language processing with BERTarticlehttp://purl.org/coar/resource_type/c_6501ORIGINALproyecto final - Angulo Jesus, Gonzalez Jairo y Meza Andres.pdfproyecto final - Angulo Jesus, Gonzalez Jairo y Meza Andres.pdfapplication/pdf899425https://manglar.uninorte.edu.co/bitstream/10584/11216/1/proyecto%20final%20%20-%20%20Angulo%20Jesus%2c%20Gonzalez%20Jairo%20y%20Meza%20Andres.pdfdcec40c460936ca8f09ebf37f00dfe7eMD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://manglar.uninorte.edu.co/bitstream/10584/11216/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD5210584/11216oai:manglar.uninorte.edu.co:10584/112162022-12-06 15:20:57.593Repositorio Digital de la Universidad del Nortemauribe@uninorte.edu.coTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo= |