Estudio de conjuntos de datos desbalanceados usando un modelo asociativo con traslación de ejes

En diversos problemas de reconocimiento de patrones, se ha observado que el desequilibrio de clases puede disminuir el desempeño del clasificador, principalmente en los patrones de las clases minoritarias. Una estrategia para resolver el problema del desbalance, consiste en tratar por separado las c...

Full description

Autores:
Cleofas Sánchez, Laura
Guzmán Escobedo, Magali
Valdovinos Rosas, Rosa María
Yáñez Márquez, Cornelio
Camacho Nieto, Oscar
Tipo de recurso:
Article of journal
Fecha de publicación:
2012
Institución:
Universidad Nacional de Colombia
Repositorio:
Universidad Nacional de Colombia
Idioma:
spa
OAI Identifier:
oai:repositorio.unal.edu.co:unal/39743
Acceso en línea:
https://repositorio.unal.edu.co/handle/unal/39743
http://bdigital.unal.edu.co/29840/
http://bdigital.unal.edu.co/29840/2/
Palabra clave:
data set
associative model
under sampling
class imbalance
pre-processing
Modelo asociativo
bajo-muestreo
clase des-balanceada
pre-procesamiento
Rights
openAccess
License
Atribución-NoComercial 4.0 Internacional
Description
Summary:En diversos problemas de reconocimiento de patrones, se ha observado que el desequilibrio de clases puede disminuir el desempeño del clasificador, principalmente en los patrones de las clases minoritarias. Una estrategia para resolver el problema del desbalance, consiste en tratar por separado las clases incluidas en el problema (clase minoritaria o mayoritaria), a fin de equilibrar los conjuntos de datos. En este sentido, la motivación del presente artículo estriba en el hecho de que el modelo asociativo visto como Clasificador Híbrido Asociativo con Traslación (CHAT), es muy sensible al des-balance de las clases. Por ello, se analiza el impacto que los conjuntos de datos des-balanceados pueden tener sobre el rendimiento del CHAT. Adicionalmente, se analiza la conveniencia de utilizar métodos de bajo-muestreo para disminuir los efectos negativos que el modelo asociativo pueda sufrir. La viabilidad de este estudio se sustenta con los resultados experimentales obtenidos de once conjuntos de datos reales. Finalmente, el presente trabajo se considera como una investigación analítica-sintética.