Selección de características usando modelo hibrido basado en algoritmos genéticos

En el articulo se propone un modelo hibrido de selección de características con el objeto de reducir la dimensión del espacio de entrenamiento, sin comprometer la precisión de clasificación. El modelo incluye la inducción de un árbol de decisión que genera subconjuntos de características, para las c...

Full description

Autores:
Giraldo, Luis Felipe
Trejos, Edilson Delgado
Riaño, Juan Carlos
Castellanos Domínguez, Germán
Tipo de recurso:
Article of journal
Fecha de publicación:
2006
Institución:
Universidad Nacional de Colombia
Repositorio:
Universidad Nacional de Colombia
Idioma:
spa
OAI Identifier:
oai:repositorio.unal.edu.co:unal/28779
Acceso en línea:
https://repositorio.unal.edu.co/handle/unal/28779
http://bdigital.unal.edu.co/18827/
Palabra clave:
feature selection
genetic algorithm
decision tree
the k nearest neighbor rule
relevancy
selección de características
algoritmos genéticos
árboles de decisión
k-vecinos más cercanos
relevancia
Rights
openAccess
License
Atribución-NoComercial 4.0 Internacional
Description
Summary:En el articulo se propone un modelo hibrido de selección de características con el objeto de reducir la dimensión del espacio de entrenamiento, sin comprometer la precisión de clasificación. El modelo incluye la inducción de un árbol de decisión que genera subconjuntos de características, para las cuales seguidamente se evalúa su relevancia mediante el criterio del mínimo error de clasificación. El procedimiento de evaluación se desarrolla empleando la regla de los k-vecinos más cercanos. Usualmente, la reducción de espacios supone una cota de error de clasificación; sin embargo, en este trabajo la sintonización del modelo hibrido de selección se realiza usando algoritmos genéticos, con lo cual se obtiene de forma simultánea la minimización tanto del número de características de entrenamiento, como del error de clasificación. De manera adicional, a diferencia de las técnicas convencionales de selección, el modelo propuesto permite cuantificar el nivel de relevancia de cada característica perteneciente al conjunto reducido de entrenamiento. Las pruebas del modelo se realizan para la identificación de hipernasalidad, en el caso de voz, y cardiopatía isquémica, en el caso de registros de electrocardiografía. Las bases de datos corresponden a una población de 90 niños (45 registros por clase) y a 100 registros electrocardiográficos (50 por clase). Los resultados obtenidos muestran una efectividad promedio para la reducción del espacio de entrenamiento inicial hasta de un 88%, con una tasa promedio de error de clasificación inferior al 6%.