Arreglos de cubrimiento para soportar el proceso de selección de características en el clasificador Random Forest
El algoritmo Random Forest (RF) es actualmente uno de los más usados en minería de datos para resolver problemas de clasificación. La literatura señala dos limitaciones importantes de RF: 1) la cantidad de tiempo que toma la fijación manual de los híper parámetros (número de árboles en el bosque y n...
- Autores:
-
Vivas Méndez, Juan Sebastián
- Tipo de recurso:
- Trabajo de grado de pregrado
- Fecha de publicación:
- 2018
- Institución:
- Universidad del Cauca
- Repositorio:
- Repositorio Unicauca
- Idioma:
- spa
- OAI Identifier:
- oai:repositorio.unicauca.edu.co:123456789/1751
- Acceso en línea:
- http://repositorio.unicauca.edu.co:8080/xmlui/handle/123456789/1751
- Palabra clave:
- Random Forest
Arreglos de cubrimiento
Clasificación
- Rights
- License
- https://creativecommons.org/licenses/by-nc-nd/4.0/
id |
REPOCAUCA2_40cdc358801a81833f49ee75e1f7a146 |
---|---|
oai_identifier_str |
oai:repositorio.unicauca.edu.co:123456789/1751 |
network_acronym_str |
REPOCAUCA2 |
network_name_str |
Repositorio Unicauca |
repository_id_str |
|
dc.title.spa.fl_str_mv |
Arreglos de cubrimiento para soportar el proceso de selección de características en el clasificador Random Forest |
title |
Arreglos de cubrimiento para soportar el proceso de selección de características en el clasificador Random Forest |
spellingShingle |
Arreglos de cubrimiento para soportar el proceso de selección de características en el clasificador Random Forest Random Forest Arreglos de cubrimiento Clasificación |
title_short |
Arreglos de cubrimiento para soportar el proceso de selección de características en el clasificador Random Forest |
title_full |
Arreglos de cubrimiento para soportar el proceso de selección de características en el clasificador Random Forest |
title_fullStr |
Arreglos de cubrimiento para soportar el proceso de selección de características en el clasificador Random Forest |
title_full_unstemmed |
Arreglos de cubrimiento para soportar el proceso de selección de características en el clasificador Random Forest |
title_sort |
Arreglos de cubrimiento para soportar el proceso de selección de características en el clasificador Random Forest |
dc.creator.fl_str_mv |
Vivas Méndez, Juan Sebastián |
dc.contributor.author.none.fl_str_mv |
Vivas Méndez, Juan Sebastián |
dc.subject.eng.fl_str_mv |
Random Forest |
topic |
Random Forest Arreglos de cubrimiento Clasificación |
dc.subject.spa.fl_str_mv |
Arreglos de cubrimiento Clasificación |
description |
El algoritmo Random Forest (RF) es actualmente uno de los más usados en minería de datos para resolver problemas de clasificación. La literatura señala dos limitaciones importantes de RF: 1) la cantidad de tiempo que toma la fijación manual de los híper parámetros (número de árboles en el bosque y numero de características) y la falta de un proceso más apropiado de selección de características que la sencilla selección aleatoria. En este trabajo se proponen y evalúan diversas variaciones del algoritmo RF en los que se integran arreglos de cubrimiento (Covering Arrays) (CA) de fuerza dos a siete, y Torres de arreglos de cubrimiento (Towers of Covering Arrays) (TCA) binarios de fuerza dos a seis como mecanismo de selección de características, donde, el número de filas del CA o del TCA permite definir el número de árboles a generar. Cada renglón del CA o el TCA define las características que utiliza cada subconjunto bootstrap (muestreo aleatorio con reemplazo del conjunto de datos) en la creación de cada árbol base. Para comparar el desempeño de los algoritmos propuestos, Random Forest con Covering Arrays (RFCA) y Random Forest con Torres de Covering Arrays (RFTCA), se definieron 33 conjuntos de datos (datasets) que representan problemas de clasificación con diferentes niveles de complejidad obtenidos del repositorio de la Universidad de California en Irvine (UCI). Los algoritmos fueron evaluados usando validación cruzada(cross-validation) de 10 folders y se evidencia que RFCA y RFTCA logran obtener el mejor desempeño basado en los resultados de los test estadísticos no paramétricos de Friedman y Wilcoxon. Con los resultados de exactitud del algoritmo RFCA con respecto al algoritmo de referencia originalmente propuesto por Breiman se obtuvieron seis modelos de árboles de decisión (uno para cada fuerza) que facilitaron la identificación de los tipos de conjunto de datos donde la propuesta RFCA tiene una mayor probabilidad de obtener mejores resultados. Los resultados muestran que en general RFCA obtiene mejores resultados que el estado del arte con una mejora entre 0.5% y 2%. |
publishDate |
2018 |
dc.date.issued.none.fl_str_mv |
2018-04 |
dc.date.accessioned.none.fl_str_mv |
2019-12-02T17:30:43Z |
dc.date.available.none.fl_str_mv |
2019-12-02T17:30:43Z |
dc.type.spa.fl_str_mv |
Trabajos de grado |
dc.type.coarversion.fl_str_mv |
http://purl.org/coar/version/c_970fb48d4fbd8a85 |
dc.type.driver.none.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
dc.type.coar.none.fl_str_mv |
http://purl.org/coar/resource_type/c_7a1f |
format |
http://purl.org/coar/resource_type/c_7a1f |
dc.identifier.uri.none.fl_str_mv |
http://repositorio.unicauca.edu.co:8080/xmlui/handle/123456789/1751 |
dc.identifier.instname.none.fl_str_mv |
|
dc.identifier.reponame.none.fl_str_mv |
|
dc.identifier.repourl.none.fl_str_mv |
|
url |
http://repositorio.unicauca.edu.co:8080/xmlui/handle/123456789/1751 |
identifier_str_mv |
|
dc.language.iso.spa.fl_str_mv |
spa |
language |
spa |
dc.rights.coar.fl_str_mv |
http://purl.org/coar/access_right/c_abf2 |
dc.rights.uri.none.fl_str_mv |
https://creativecommons.org/licenses/by-nc-nd/4.0/ |
dc.rights.creativecommons.none.fl_str_mv |
https://creativecommons.org/licenses/by-nc-nd/4.0/ |
rights_invalid_str_mv |
https://creativecommons.org/licenses/by-nc-nd/4.0/ http://purl.org/coar/access_right/c_abf2 |
dc.publisher.spa.fl_str_mv |
Universidad del Cauca |
dc.publisher.faculty.spa.fl_str_mv |
Facultad de Ingeniería Electrónica y Telecomunicaciones |
dc.publisher.program.spa.fl_str_mv |
Ingeniería de Sistemas |
institution |
Universidad del Cauca |
bitstream.url.fl_str_mv |
http://repositorio.unicauca.edu.co/bitstream/123456789/1751/1/ARREGLOS%20DE%20CUBRIMIENTO%20PARA%20SOPORTAR%20EL%20PROCESO%20DE%20SELECCI%c3%93N%20DE%20CARACTER%c3%8dSTICAS%20EN%20EL%20CLASIFICADOR%20RANDOM%20FOREST.pdf http://repositorio.unicauca.edu.co/bitstream/123456789/1751/2/Anexo-3-Propuesta%20y%20an%c3%a1lisis%20de%20resultados%20de%20RFTCA.pdf http://repositorio.unicauca.edu.co/bitstream/123456789/1751/3/license.txt |
bitstream.checksum.fl_str_mv |
2061a9722f7deaefe336a07bef8a0887 40f657096a28a33accb4c3bebe73f640 8a4605be74aa9ea9d79846c1fba20a33 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Dspace - Universidad del Cauca |
repository.mail.fl_str_mv |
biblios@unicauca.edu.co |
_version_ |
1818113200039657472 |
spelling |
Vivas Méndez, Juan Sebastián2019-12-02T17:30:43Z2019-12-02T17:30:43Z2018-04http://repositorio.unicauca.edu.co:8080/xmlui/handle/123456789/1751El algoritmo Random Forest (RF) es actualmente uno de los más usados en minería de datos para resolver problemas de clasificación. La literatura señala dos limitaciones importantes de RF: 1) la cantidad de tiempo que toma la fijación manual de los híper parámetros (número de árboles en el bosque y numero de características) y la falta de un proceso más apropiado de selección de características que la sencilla selección aleatoria. En este trabajo se proponen y evalúan diversas variaciones del algoritmo RF en los que se integran arreglos de cubrimiento (Covering Arrays) (CA) de fuerza dos a siete, y Torres de arreglos de cubrimiento (Towers of Covering Arrays) (TCA) binarios de fuerza dos a seis como mecanismo de selección de características, donde, el número de filas del CA o del TCA permite definir el número de árboles a generar. Cada renglón del CA o el TCA define las características que utiliza cada subconjunto bootstrap (muestreo aleatorio con reemplazo del conjunto de datos) en la creación de cada árbol base. Para comparar el desempeño de los algoritmos propuestos, Random Forest con Covering Arrays (RFCA) y Random Forest con Torres de Covering Arrays (RFTCA), se definieron 33 conjuntos de datos (datasets) que representan problemas de clasificación con diferentes niveles de complejidad obtenidos del repositorio de la Universidad de California en Irvine (UCI). Los algoritmos fueron evaluados usando validación cruzada(cross-validation) de 10 folders y se evidencia que RFCA y RFTCA logran obtener el mejor desempeño basado en los resultados de los test estadísticos no paramétricos de Friedman y Wilcoxon. Con los resultados de exactitud del algoritmo RFCA con respecto al algoritmo de referencia originalmente propuesto por Breiman se obtuvieron seis modelos de árboles de decisión (uno para cada fuerza) que facilitaron la identificación de los tipos de conjunto de datos donde la propuesta RFCA tiene una mayor probabilidad de obtener mejores resultados. Los resultados muestran que en general RFCA obtiene mejores resultados que el estado del arte con una mejora entre 0.5% y 2%.spaUniversidad del CaucaFacultad de Ingeniería Electrónica y Telecomunicaciones Ingeniería de Sistemashttps://creativecommons.org/licenses/by-nc-nd/4.0/https://creativecommons.org/licenses/by-nc-nd/4.0/http://purl.org/coar/access_right/c_abf2Random ForestArreglos de cubrimientoClasificaciónArreglos de cubrimiento para soportar el proceso de selección de características en el clasificador Random ForestTrabajos de gradoinfo:eu-repo/semantics/bachelorThesishttp://purl.org/coar/resource_type/c_7a1fhttp://purl.org/coar/version/c_970fb48d4fbd8a85http://purl.org/coar/version/c_970fb48d4fbd8a85ORIGINALARREGLOS DE CUBRIMIENTO PARA SOPORTAR EL PROCESO DE SELECCIÓN DE CARACTERÍSTICAS EN EL CLASIFICADOR RANDOM FOREST.pdfARREGLOS DE CUBRIMIENTO PARA SOPORTAR EL PROCESO DE SELECCIÓN DE CARACTERÍSTICAS EN EL CLASIFICADOR RANDOM FOREST.pdfapplication/pdf1888345http://repositorio.unicauca.edu.co/bitstream/123456789/1751/1/ARREGLOS%20DE%20CUBRIMIENTO%20PARA%20SOPORTAR%20EL%20PROCESO%20DE%20SELECCI%c3%93N%20DE%20CARACTER%c3%8dSTICAS%20EN%20EL%20CLASIFICADOR%20RANDOM%20FOREST.pdf2061a9722f7deaefe336a07bef8a0887MD51Anexo-3-Propuesta y análisis de resultados de RFTCA.pdfAnexo-3-Propuesta y análisis de resultados de RFTCA.pdfapplication/pdf980712http://repositorio.unicauca.edu.co/bitstream/123456789/1751/2/Anexo-3-Propuesta%20y%20an%c3%a1lisis%20de%20resultados%20de%20RFTCA.pdf40f657096a28a33accb4c3bebe73f640MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-81748http://repositorio.unicauca.edu.co/bitstream/123456789/1751/3/license.txt8a4605be74aa9ea9d79846c1fba20a33MD53123456789/1751oai:repositorio.unicauca.edu.co:123456789/17512021-05-28 09:38:13.723Dspace - Universidad del Caucabiblios@unicauca.edu.coTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo= |