Selección de características usando modelo hibrido basado en algoritmos genéticos
En el articulo se propone un modelo hibrido de selección de características con el objeto de reducir la dimensión del espacio de entrenamiento, sin comprometer la precisión de clasificación. El modelo incluye la inducción de un árbol de decisión que genera subconjuntos de características, para las c...
- Autores:
-
Giraldo, Luis Felipe
Trejos, Edilson Delgado
Riaño, Juan Carlos
Castellanos Domínguez, Germán
- Tipo de recurso:
- Article of journal
- Fecha de publicación:
- 2006
- Institución:
- Universidad Nacional de Colombia
- Repositorio:
- Universidad Nacional de Colombia
- Idioma:
- spa
- OAI Identifier:
- oai:repositorio.unal.edu.co:unal/28779
- Acceso en línea:
- https://repositorio.unal.edu.co/handle/unal/28779
http://bdigital.unal.edu.co/18827/
- Palabra clave:
- feature selection
genetic algorithm
decision tree
the k nearest neighbor rule
relevancy
selección de características
algoritmos genéticos
árboles de decisión
k-vecinos más cercanos
relevancia
- Rights
- openAccess
- License
- Atribución-NoComercial 4.0 Internacional
Summary: | En el articulo se propone un modelo hibrido de selección de características con el objeto de reducir la dimensión del espacio de entrenamiento, sin comprometer la precisión de clasificación. El modelo incluye la inducción de un árbol de decisión que genera subconjuntos de características, para las cuales seguidamente se evalúa su relevancia mediante el criterio del mínimo error de clasificación. El procedimiento de evaluación se desarrolla empleando la regla de los k-vecinos más cercanos. Usualmente, la reducción de espacios supone una cota de error de clasificación; sin embargo, en este trabajo la sintonización del modelo hibrido de selección se realiza usando algoritmos genéticos, con lo cual se obtiene de forma simultánea la minimización tanto del número de características de entrenamiento, como del error de clasificación. De manera adicional, a diferencia de las técnicas convencionales de selección, el modelo propuesto permite cuantificar el nivel de relevancia de cada característica perteneciente al conjunto reducido de entrenamiento. Las pruebas del modelo se realizan para la identificación de hipernasalidad, en el caso de voz, y cardiopatía isquémica, en el caso de registros de electrocardiografía. Las bases de datos corresponden a una población de 90 niños (45 registros por clase) y a 100 registros electrocardiográficos (50 por clase). Los resultados obtenidos muestran una efectividad promedio para la reducción del espacio de entrenamiento inicial hasta de un 88%, con una tasa promedio de error de clasificación inferior al 6%. |
---|