Visualization and Multiclass Classification of Complaints to Official Organisms on Twitter

Las redes sociales acumulan gran cantidad de información. Las actuales técnicas de Procesamiento de Lenguaje Natural permiten su procesamiento automático y las técnicas de Minería de Datos permiten extraer datos útiles a partir de la información recopilada y procesada. Sin embargo, de la revisión de...

Full description

Autores:
Hernández-Pajares, Beatriz
Pérez-Marín, Diana
Frías-Martínez, Vanessa
Tipo de recurso:
Article of journal
Fecha de publicación:
2020
Institución:
Instituto Tecnológico Metropolitano
Repositorio:
Repositorio ITM
Idioma:
spa
OAI Identifier:
oai:repositorio.itm.edu.co:20.500.12622/4600
Acceso en línea:
https://revistas.itm.edu.co/index.php/tecnologicas/article/view/1454
http://hdl.handle.net/20.500.12622/4600
Palabra clave:
Minería de texto
clasificación multiclase
redes sociales
Twitter
Text Mining
Multiclass Classification
Social Networks
Twitter
Rights
License
Copyright (c) 2020 TecnoLógicas
id RepoITM2_d29b86a0a4007b55f5934716e182759a
oai_identifier_str oai:repositorio.itm.edu.co:20.500.12622/4600
network_acronym_str RepoITM2
network_name_str Repositorio ITM
repository_id_str
spelling Hernández-Pajares, BeatrizPérez-Marín, DianaFrías-Martínez, Vanessa2021-04-21T16:55:17Z2021-04-21T16:55:17Z2020-01-30https://revistas.itm.edu.co/index.php/tecnologicas/article/view/145410.22430/22565337.1454http://hdl.handle.net/20.500.12622/4600Las redes sociales acumulan gran cantidad de información. Las actuales técnicas de Procesamiento de Lenguaje Natural permiten su procesamiento automático y las técnicas de Minería de Datos permiten extraer datos útiles a partir de la información recopilada y procesada. Sin embargo, de la revisión del estado del arte, se observa que la mayoría de los métodos de clasificación de los datos identificados y extraídos de redes sociales son biclase. Esto no es suficiente para algunas áreas de clasificación, en las que hay más de dos clases a considerar. En este artículo, se aporta un estudio comparativo de los métodos svm y Random Forests, para la identificación automática de n-clases en microblogging de redes sociales. Los datos recopilados automáticamente para el estudio están conformados por 190 000 tweets de cuatro organismos oficiales: Metro, Protección Civil, Policía, y Gobierno de México. De los resultados obtenidos, se recomienda el uso de Random Forests, ya que se consigue una precisión media del 81.46 % y una cobertura media del 59.88 %, con nueve tipos de quejas identificadas automáticamente.  Social networks generate massive amounts of information. Current Natural Language techniques allow the automatic processing of that information, and Data Mining enables the automatic extraction of useful info. However, a state-of-the-art review reveals that many classification methods only distinguish two classes. This paper presents a procedure to automatically classify tweets into several classes (more than two). The steps of the procedure are described in detail so that any researcher can follow them. The accuracy and coverage (instead of only coverage as usual in the literature) of two automatic classifiers (SVM and Random Forests) were analyzed in a comparative study. The procedure was applied to automatically identify more than two types of complaint from 190,000 tweets. According to the results, Random Forests should be used because they achieve an average accuracy of 81.46 % and an average coverage of 59.88 %.application/pdfspaInstituto Tecnológico Metropolitano - ITMhttps://revistas.itm.edu.co/index.php/tecnologicas/article/view/145410.22430/22565337.1454TecnoLógicasCopyright (c) 2020 TecnoLógicashttp://creativecommons.org/licenses/by-nc-sa/4.0http://purl.org/coar/access_right/c_abf22256-53370123-7799TecnoLógicas; Vol. 23 No. 47 (2020); 109-120TecnoLógicas; Vol. 23 Núm. 47 (2020); 109-120Minería de textoclasificación multiclaseredes socialesTwitterText MiningMulticlass ClassificationSocial NetworksTwitterVisualization and Multiclass Classification of Complaints to Official Organisms on TwitterClasificación multiclase y visualización de quejas de organismos oficiales en twitterArtículosinfo:eu-repo/semantics/articleArticleshttp://purl.org/coar/resource_type/c_6501http://purl.org/coar/resource_type/c_2df8fbb1http://purl.org/coar/version/c_970fb48d4fbd8a85Publication20.500.12622/4600oai:dspace-itm.metabuscador.org:20.500.12622/46002025-06-20 16:15:43.163metadata.onlyhttps://dspace-itm.metabuscador.orgRepositorio Instituto Tecnológico Metropolitano de Medellínbdigital@metabiblioteca.com
dc.title.spa.fl_str_mv Visualization and Multiclass Classification of Complaints to Official Organisms on Twitter
dc.title.alternative.eng.fl_str_mv Clasificación multiclase y visualización de quejas de organismos oficiales en twitter
title Visualization and Multiclass Classification of Complaints to Official Organisms on Twitter
spellingShingle Visualization and Multiclass Classification of Complaints to Official Organisms on Twitter
Minería de texto
clasificación multiclase
redes sociales
Twitter
Text Mining
Multiclass Classification
Social Networks
Twitter
title_short Visualization and Multiclass Classification of Complaints to Official Organisms on Twitter
title_full Visualization and Multiclass Classification of Complaints to Official Organisms on Twitter
title_fullStr Visualization and Multiclass Classification of Complaints to Official Organisms on Twitter
title_full_unstemmed Visualization and Multiclass Classification of Complaints to Official Organisms on Twitter
title_sort Visualization and Multiclass Classification of Complaints to Official Organisms on Twitter
dc.creator.fl_str_mv Hernández-Pajares, Beatriz
Pérez-Marín, Diana
Frías-Martínez, Vanessa
dc.contributor.author.none.fl_str_mv Hernández-Pajares, Beatriz
Pérez-Marín, Diana
Frías-Martínez, Vanessa
dc.subject.spa.fl_str_mv Minería de texto
clasificación multiclase
redes sociales
Twitter
topic Minería de texto
clasificación multiclase
redes sociales
Twitter
Text Mining
Multiclass Classification
Social Networks
Twitter
dc.subject.keywords.eng.fl_str_mv Text Mining
Multiclass Classification
Social Networks
Twitter
description Las redes sociales acumulan gran cantidad de información. Las actuales técnicas de Procesamiento de Lenguaje Natural permiten su procesamiento automático y las técnicas de Minería de Datos permiten extraer datos útiles a partir de la información recopilada y procesada. Sin embargo, de la revisión del estado del arte, se observa que la mayoría de los métodos de clasificación de los datos identificados y extraídos de redes sociales son biclase. Esto no es suficiente para algunas áreas de clasificación, en las que hay más de dos clases a considerar. En este artículo, se aporta un estudio comparativo de los métodos svm y Random Forests, para la identificación automática de n-clases en microblogging de redes sociales. Los datos recopilados automáticamente para el estudio están conformados por 190 000 tweets de cuatro organismos oficiales: Metro, Protección Civil, Policía, y Gobierno de México. De los resultados obtenidos, se recomienda el uso de Random Forests, ya que se consigue una precisión media del 81.46 % y una cobertura media del 59.88 %, con nueve tipos de quejas identificadas automáticamente.  
publishDate 2020
dc.date.issued.none.fl_str_mv 2020-01-30
dc.date.accessioned.none.fl_str_mv 2021-04-21T16:55:17Z
dc.date.available.none.fl_str_mv 2021-04-21T16:55:17Z
dc.type.none.fl_str_mv info:eu-repo/semantics/article
dc.type.eng.fl_str_mv Articles
dc.type.coar.fl_str_mv http://purl.org/coar/resource_type/c_2df8fbb1
dc.type.coarversion.fl_str_mv http://purl.org/coar/version/c_970fb48d4fbd8a85
dc.type.spa.spa.fl_str_mv Artículos
dc.type.coar.none.fl_str_mv http://purl.org/coar/resource_type/c_6501
format http://purl.org/coar/resource_type/c_6501
dc.identifier.none.fl_str_mv https://revistas.itm.edu.co/index.php/tecnologicas/article/view/1454
10.22430/22565337.1454
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/20.500.12622/4600
url https://revistas.itm.edu.co/index.php/tecnologicas/article/view/1454
http://hdl.handle.net/20.500.12622/4600
identifier_str_mv 10.22430/22565337.1454
dc.language.iso.none.fl_str_mv spa
language spa
dc.relation.none.fl_str_mv https://revistas.itm.edu.co/index.php/tecnologicas/article/view/1454
10.22430/22565337.1454
dc.relation.ispartofjournal.none.fl_str_mv TecnoLógicas
dc.rights.spa.fl_str_mv Copyright (c) 2020 TecnoLógicas
http://creativecommons.org/licenses/by-nc-sa/4.0
dc.rights.coar.fl_str_mv http://purl.org/coar/access_right/c_abf2
rights_invalid_str_mv Copyright (c) 2020 TecnoLógicas
http://creativecommons.org/licenses/by-nc-sa/4.0
http://purl.org/coar/access_right/c_abf2
dc.format.mimetype.none.fl_str_mv application/pdf
dc.publisher.spa.fl_str_mv Instituto Tecnológico Metropolitano - ITM
dc.source.none.fl_str_mv 2256-5337
0123-7799
dc.source.eng.fl_str_mv TecnoLógicas; Vol. 23 No. 47 (2020); 109-120
dc.source.spa.fl_str_mv TecnoLógicas; Vol. 23 Núm. 47 (2020); 109-120
institution Instituto Tecnológico Metropolitano
repository.name.fl_str_mv Repositorio Instituto Tecnológico Metropolitano de Medellín
repository.mail.fl_str_mv bdigital@metabiblioteca.com
_version_ 1837096906662084608