Visualization and Multiclass Classification of Complaints to Official Organisms on Twitter
Las redes sociales acumulan gran cantidad de información. Las actuales técnicas de Procesamiento de Lenguaje Natural permiten su procesamiento automático y las técnicas de Minería de Datos permiten extraer datos útiles a partir de la información recopilada y procesada. Sin embargo, de la revisión de...
- Autores:
-
Hernández-Pajares, Beatriz
Pérez-Marín, Diana
Frías-Martínez, Vanessa
- Tipo de recurso:
- Article of journal
- Fecha de publicación:
- 2020
- Institución:
- Instituto Tecnológico Metropolitano
- Repositorio:
- Repositorio ITM
- Idioma:
- spa
- OAI Identifier:
- oai:repositorio.itm.edu.co:20.500.12622/4600
- Acceso en línea:
- https://revistas.itm.edu.co/index.php/tecnologicas/article/view/1454
http://hdl.handle.net/20.500.12622/4600
- Palabra clave:
- Minería de texto
clasificación multiclase
redes sociales
Twitter
Text Mining
Multiclass Classification
Social Networks
Twitter
- Rights
- License
- Copyright (c) 2020 TecnoLógicas
Summary: | Las redes sociales acumulan gran cantidad de información. Las actuales técnicas de Procesamiento de Lenguaje Natural permiten su procesamiento automático y las técnicas de Minería de Datos permiten extraer datos útiles a partir de la información recopilada y procesada. Sin embargo, de la revisión del estado del arte, se observa que la mayoría de los métodos de clasificación de los datos identificados y extraídos de redes sociales son biclase. Esto no es suficiente para algunas áreas de clasificación, en las que hay más de dos clases a considerar. En este artículo, se aporta un estudio comparativo de los métodos svm y Random Forests, para la identificación automática de n-clases en microblogging de redes sociales. Los datos recopilados automáticamente para el estudio están conformados por 190 000 tweets de cuatro organismos oficiales: Metro, Protección Civil, Policía, y Gobierno de México. De los resultados obtenidos, se recomienda el uso de Random Forests, ya que se consigue una precisión media del 81.46 % y una cobertura media del 59.88 %, con nueve tipos de quejas identificadas automáticamente. |
---|