Visualization and Multiclass Classification of Complaints to Official Organisms on Twitter
Las redes sociales acumulan gran cantidad de información. Las actuales técnicas de Procesamiento de Lenguaje Natural permiten su procesamiento automático y las técnicas de Minería de Datos permiten extraer datos útiles a partir de la información recopilada y procesada. Sin embargo, de la revisión de...
- Autores:
-
Hernández-Pajares, Beatriz
Pérez-Marín, Diana
Frías-Martínez, Vanessa
- Tipo de recurso:
- Article of journal
- Fecha de publicación:
- 2020
- Institución:
- Instituto Tecnológico Metropolitano
- Repositorio:
- Repositorio ITM
- Idioma:
- spa
- OAI Identifier:
- oai:repositorio.itm.edu.co:20.500.12622/4600
- Acceso en línea:
- https://revistas.itm.edu.co/index.php/tecnologicas/article/view/1454
http://hdl.handle.net/20.500.12622/4600
- Palabra clave:
- Minería de texto
clasificación multiclase
redes sociales
Twitter
Text Mining
Multiclass Classification
Social Networks
Twitter
- Rights
- License
- Copyright (c) 2020 TecnoLógicas
id |
RepoITM2_d29b86a0a4007b55f5934716e182759a |
---|---|
oai_identifier_str |
oai:repositorio.itm.edu.co:20.500.12622/4600 |
network_acronym_str |
RepoITM2 |
network_name_str |
Repositorio ITM |
repository_id_str |
|
spelling |
Hernández-Pajares, BeatrizPérez-Marín, DianaFrías-Martínez, Vanessa2021-04-21T16:55:17Z2021-04-21T16:55:17Z2020-01-30https://revistas.itm.edu.co/index.php/tecnologicas/article/view/145410.22430/22565337.1454http://hdl.handle.net/20.500.12622/4600Las redes sociales acumulan gran cantidad de información. Las actuales técnicas de Procesamiento de Lenguaje Natural permiten su procesamiento automático y las técnicas de Minería de Datos permiten extraer datos útiles a partir de la información recopilada y procesada. Sin embargo, de la revisión del estado del arte, se observa que la mayoría de los métodos de clasificación de los datos identificados y extraídos de redes sociales son biclase. Esto no es suficiente para algunas áreas de clasificación, en las que hay más de dos clases a considerar. En este artículo, se aporta un estudio comparativo de los métodos svm y Random Forests, para la identificación automática de n-clases en microblogging de redes sociales. Los datos recopilados automáticamente para el estudio están conformados por 190 000 tweets de cuatro organismos oficiales: Metro, Protección Civil, Policía, y Gobierno de México. De los resultados obtenidos, se recomienda el uso de Random Forests, ya que se consigue una precisión media del 81.46 % y una cobertura media del 59.88 %, con nueve tipos de quejas identificadas automáticamente. Social networks generate massive amounts of information. Current Natural Language techniques allow the automatic processing of that information, and Data Mining enables the automatic extraction of useful info. However, a state-of-the-art review reveals that many classification methods only distinguish two classes. This paper presents a procedure to automatically classify tweets into several classes (more than two). The steps of the procedure are described in detail so that any researcher can follow them. The accuracy and coverage (instead of only coverage as usual in the literature) of two automatic classifiers (SVM and Random Forests) were analyzed in a comparative study. The procedure was applied to automatically identify more than two types of complaint from 190,000 tweets. According to the results, Random Forests should be used because they achieve an average accuracy of 81.46 % and an average coverage of 59.88 %.application/pdfspaInstituto Tecnológico Metropolitano - ITMhttps://revistas.itm.edu.co/index.php/tecnologicas/article/view/145410.22430/22565337.1454TecnoLógicasCopyright (c) 2020 TecnoLógicashttp://creativecommons.org/licenses/by-nc-sa/4.0http://purl.org/coar/access_right/c_abf22256-53370123-7799TecnoLógicas; Vol. 23 No. 47 (2020); 109-120TecnoLógicas; Vol. 23 Núm. 47 (2020); 109-120Minería de textoclasificación multiclaseredes socialesTwitterText MiningMulticlass ClassificationSocial NetworksTwitterVisualization and Multiclass Classification of Complaints to Official Organisms on TwitterClasificación multiclase y visualización de quejas de organismos oficiales en twitterArtículosinfo:eu-repo/semantics/articleArticleshttp://purl.org/coar/resource_type/c_6501http://purl.org/coar/resource_type/c_2df8fbb1http://purl.org/coar/version/c_970fb48d4fbd8a85Publication20.500.12622/4600oai:dspace-itm.metabuscador.org:20.500.12622/46002025-06-20 16:15:43.163metadata.onlyhttps://dspace-itm.metabuscador.orgRepositorio Instituto Tecnológico Metropolitano de Medellínbdigital@metabiblioteca.com |
dc.title.spa.fl_str_mv |
Visualization and Multiclass Classification of Complaints to Official Organisms on Twitter |
dc.title.alternative.eng.fl_str_mv |
Clasificación multiclase y visualización de quejas de organismos oficiales en twitter |
title |
Visualization and Multiclass Classification of Complaints to Official Organisms on Twitter |
spellingShingle |
Visualization and Multiclass Classification of Complaints to Official Organisms on Twitter Minería de texto clasificación multiclase redes sociales Text Mining Multiclass Classification Social Networks |
title_short |
Visualization and Multiclass Classification of Complaints to Official Organisms on Twitter |
title_full |
Visualization and Multiclass Classification of Complaints to Official Organisms on Twitter |
title_fullStr |
Visualization and Multiclass Classification of Complaints to Official Organisms on Twitter |
title_full_unstemmed |
Visualization and Multiclass Classification of Complaints to Official Organisms on Twitter |
title_sort |
Visualization and Multiclass Classification of Complaints to Official Organisms on Twitter |
dc.creator.fl_str_mv |
Hernández-Pajares, Beatriz Pérez-Marín, Diana Frías-Martínez, Vanessa |
dc.contributor.author.none.fl_str_mv |
Hernández-Pajares, Beatriz Pérez-Marín, Diana Frías-Martínez, Vanessa |
dc.subject.spa.fl_str_mv |
Minería de texto clasificación multiclase redes sociales |
topic |
Minería de texto clasificación multiclase redes sociales Text Mining Multiclass Classification Social Networks |
dc.subject.keywords.eng.fl_str_mv |
Text Mining Multiclass Classification Social Networks |
description |
Las redes sociales acumulan gran cantidad de información. Las actuales técnicas de Procesamiento de Lenguaje Natural permiten su procesamiento automático y las técnicas de Minería de Datos permiten extraer datos útiles a partir de la información recopilada y procesada. Sin embargo, de la revisión del estado del arte, se observa que la mayoría de los métodos de clasificación de los datos identificados y extraídos de redes sociales son biclase. Esto no es suficiente para algunas áreas de clasificación, en las que hay más de dos clases a considerar. En este artículo, se aporta un estudio comparativo de los métodos svm y Random Forests, para la identificación automática de n-clases en microblogging de redes sociales. Los datos recopilados automáticamente para el estudio están conformados por 190 000 tweets de cuatro organismos oficiales: Metro, Protección Civil, Policía, y Gobierno de México. De los resultados obtenidos, se recomienda el uso de Random Forests, ya que se consigue una precisión media del 81.46 % y una cobertura media del 59.88 %, con nueve tipos de quejas identificadas automáticamente. |
publishDate |
2020 |
dc.date.issued.none.fl_str_mv |
2020-01-30 |
dc.date.accessioned.none.fl_str_mv |
2021-04-21T16:55:17Z |
dc.date.available.none.fl_str_mv |
2021-04-21T16:55:17Z |
dc.type.none.fl_str_mv |
info:eu-repo/semantics/article |
dc.type.eng.fl_str_mv |
Articles |
dc.type.coar.fl_str_mv |
http://purl.org/coar/resource_type/c_2df8fbb1 |
dc.type.coarversion.fl_str_mv |
http://purl.org/coar/version/c_970fb48d4fbd8a85 |
dc.type.spa.spa.fl_str_mv |
Artículos |
dc.type.coar.none.fl_str_mv |
http://purl.org/coar/resource_type/c_6501 |
format |
http://purl.org/coar/resource_type/c_6501 |
dc.identifier.none.fl_str_mv |
https://revistas.itm.edu.co/index.php/tecnologicas/article/view/1454 10.22430/22565337.1454 |
dc.identifier.uri.none.fl_str_mv |
http://hdl.handle.net/20.500.12622/4600 |
url |
https://revistas.itm.edu.co/index.php/tecnologicas/article/view/1454 http://hdl.handle.net/20.500.12622/4600 |
identifier_str_mv |
10.22430/22565337.1454 |
dc.language.iso.none.fl_str_mv |
spa |
language |
spa |
dc.relation.none.fl_str_mv |
https://revistas.itm.edu.co/index.php/tecnologicas/article/view/1454 10.22430/22565337.1454 |
dc.relation.ispartofjournal.none.fl_str_mv |
TecnoLógicas |
dc.rights.spa.fl_str_mv |
Copyright (c) 2020 TecnoLógicas http://creativecommons.org/licenses/by-nc-sa/4.0 |
dc.rights.coar.fl_str_mv |
http://purl.org/coar/access_right/c_abf2 |
rights_invalid_str_mv |
Copyright (c) 2020 TecnoLógicas http://creativecommons.org/licenses/by-nc-sa/4.0 http://purl.org/coar/access_right/c_abf2 |
dc.format.mimetype.none.fl_str_mv |
application/pdf |
dc.publisher.spa.fl_str_mv |
Instituto Tecnológico Metropolitano - ITM |
dc.source.none.fl_str_mv |
2256-5337 0123-7799 |
dc.source.eng.fl_str_mv |
TecnoLógicas; Vol. 23 No. 47 (2020); 109-120 |
dc.source.spa.fl_str_mv |
TecnoLógicas; Vol. 23 Núm. 47 (2020); 109-120 |
institution |
Instituto Tecnológico Metropolitano |
repository.name.fl_str_mv |
Repositorio Instituto Tecnológico Metropolitano de Medellín |
repository.mail.fl_str_mv |
bdigital@metabiblioteca.com |
_version_ |
1837096906662084608 |