Arreglos de cubrimiento para soportar el proceso de selección de características en el clasificador Random Forest

El algoritmo Random Forest (RF) es actualmente uno de los más usados en minería de datos para resolver problemas de clasificación. La literatura señala dos limitaciones importantes de RF: 1) la cantidad de tiempo que toma la fijación manual de los híper parámetros (número de árboles en el bosque y n...

Full description

Autores:
Vivas Méndez, Juan Sebastián
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
2018
Institución:
Universidad del Cauca
Repositorio:
Repositorio Unicauca
Idioma:
spa
OAI Identifier:
oai:repositorio.unicauca.edu.co:123456789/1751
Acceso en línea:
http://repositorio.unicauca.edu.co:8080/xmlui/handle/123456789/1751
Palabra clave:
Random Forest
Arreglos de cubrimiento
Clasificación
Rights
License
https://creativecommons.org/licenses/by-nc-nd/4.0/
id REPOCAUCA2_40cdc358801a81833f49ee75e1f7a146
oai_identifier_str oai:repositorio.unicauca.edu.co:123456789/1751
network_acronym_str REPOCAUCA2
network_name_str Repositorio Unicauca
repository_id_str
dc.title.spa.fl_str_mv Arreglos de cubrimiento para soportar el proceso de selección de características en el clasificador Random Forest
title Arreglos de cubrimiento para soportar el proceso de selección de características en el clasificador Random Forest
spellingShingle Arreglos de cubrimiento para soportar el proceso de selección de características en el clasificador Random Forest
Random Forest
Arreglos de cubrimiento
Clasificación
title_short Arreglos de cubrimiento para soportar el proceso de selección de características en el clasificador Random Forest
title_full Arreglos de cubrimiento para soportar el proceso de selección de características en el clasificador Random Forest
title_fullStr Arreglos de cubrimiento para soportar el proceso de selección de características en el clasificador Random Forest
title_full_unstemmed Arreglos de cubrimiento para soportar el proceso de selección de características en el clasificador Random Forest
title_sort Arreglos de cubrimiento para soportar el proceso de selección de características en el clasificador Random Forest
dc.creator.fl_str_mv Vivas Méndez, Juan Sebastián
dc.contributor.author.none.fl_str_mv Vivas Méndez, Juan Sebastián
dc.subject.eng.fl_str_mv Random Forest
topic Random Forest
Arreglos de cubrimiento
Clasificación
dc.subject.spa.fl_str_mv Arreglos de cubrimiento
Clasificación
description El algoritmo Random Forest (RF) es actualmente uno de los más usados en minería de datos para resolver problemas de clasificación. La literatura señala dos limitaciones importantes de RF: 1) la cantidad de tiempo que toma la fijación manual de los híper parámetros (número de árboles en el bosque y numero de características) y la falta de un proceso más apropiado de selección de características que la sencilla selección aleatoria. En este trabajo se proponen y evalúan diversas variaciones del algoritmo RF en los que se integran arreglos de cubrimiento (Covering Arrays) (CA) de fuerza dos a siete, y Torres de arreglos de cubrimiento (Towers of Covering Arrays) (TCA) binarios de fuerza dos a seis como mecanismo de selección de características, donde, el número de filas del CA o del TCA permite definir el número de árboles a generar. Cada renglón del CA o el TCA define las características que utiliza cada subconjunto bootstrap (muestreo aleatorio con reemplazo del conjunto de datos) en la creación de cada árbol base. Para comparar el desempeño de los algoritmos propuestos, Random Forest con Covering Arrays (RFCA) y Random Forest con Torres de Covering Arrays (RFTCA), se definieron 33 conjuntos de datos (datasets) que representan problemas de clasificación con diferentes niveles de complejidad obtenidos del repositorio de la Universidad de California en Irvine (UCI). Los algoritmos fueron evaluados usando validación cruzada(cross-validation) de 10 folders y se evidencia que RFCA y RFTCA logran obtener el mejor desempeño basado en los resultados de los test estadísticos no paramétricos de Friedman y Wilcoxon. Con los resultados de exactitud del algoritmo RFCA con respecto al algoritmo de referencia originalmente propuesto por Breiman se obtuvieron seis modelos de árboles de decisión (uno para cada fuerza) que facilitaron la identificación de los tipos de conjunto de datos donde la propuesta RFCA tiene una mayor probabilidad de obtener mejores resultados. Los resultados muestran que en general RFCA obtiene mejores resultados que el estado del arte con una mejora entre 0.5% y 2%.
publishDate 2018
dc.date.issued.none.fl_str_mv 2018-04
dc.date.accessioned.none.fl_str_mv 2019-12-02T17:30:43Z
dc.date.available.none.fl_str_mv 2019-12-02T17:30:43Z
dc.type.spa.fl_str_mv Trabajos de grado
dc.type.coarversion.fl_str_mv http://purl.org/coar/version/c_970fb48d4fbd8a85
dc.type.driver.none.fl_str_mv info:eu-repo/semantics/bachelorThesis
dc.type.coar.none.fl_str_mv http://purl.org/coar/resource_type/c_7a1f
format http://purl.org/coar/resource_type/c_7a1f
dc.identifier.uri.none.fl_str_mv http://repositorio.unicauca.edu.co:8080/xmlui/handle/123456789/1751
dc.identifier.instname.none.fl_str_mv
dc.identifier.reponame.none.fl_str_mv
dc.identifier.repourl.none.fl_str_mv
url http://repositorio.unicauca.edu.co:8080/xmlui/handle/123456789/1751
identifier_str_mv
dc.language.iso.spa.fl_str_mv spa
language spa
dc.rights.coar.fl_str_mv http://purl.org/coar/access_right/c_abf2
dc.rights.uri.none.fl_str_mv https://creativecommons.org/licenses/by-nc-nd/4.0/
dc.rights.creativecommons.none.fl_str_mv https://creativecommons.org/licenses/by-nc-nd/4.0/
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-nd/4.0/
http://purl.org/coar/access_right/c_abf2
dc.publisher.spa.fl_str_mv Universidad del Cauca
dc.publisher.faculty.spa.fl_str_mv Facultad de Ingeniería Electrónica y Telecomunicaciones 
dc.publisher.program.spa.fl_str_mv Ingeniería de Sistemas
institution Universidad del Cauca
bitstream.url.fl_str_mv http://repositorio.unicauca.edu.co/bitstream/123456789/1751/1/ARREGLOS%20DE%20CUBRIMIENTO%20PARA%20SOPORTAR%20EL%20PROCESO%20DE%20SELECCI%c3%93N%20DE%20CARACTER%c3%8dSTICAS%20EN%20EL%20CLASIFICADOR%20RANDOM%20FOREST.pdf
http://repositorio.unicauca.edu.co/bitstream/123456789/1751/2/Anexo-3-Propuesta%20y%20an%c3%a1lisis%20de%20resultados%20de%20RFTCA.pdf
http://repositorio.unicauca.edu.co/bitstream/123456789/1751/3/license.txt
bitstream.checksum.fl_str_mv 2061a9722f7deaefe336a07bef8a0887
40f657096a28a33accb4c3bebe73f640
8a4605be74aa9ea9d79846c1fba20a33
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Dspace - Universidad del Cauca
repository.mail.fl_str_mv biblios@unicauca.edu.co
_version_ 1818113200039657472
spelling Vivas Méndez, Juan Sebastián2019-12-02T17:30:43Z2019-12-02T17:30:43Z2018-04http://repositorio.unicauca.edu.co:8080/xmlui/handle/123456789/1751El algoritmo Random Forest (RF) es actualmente uno de los más usados en minería de datos para resolver problemas de clasificación. La literatura señala dos limitaciones importantes de RF: 1) la cantidad de tiempo que toma la fijación manual de los híper parámetros (número de árboles en el bosque y numero de características) y la falta de un proceso más apropiado de selección de características que la sencilla selección aleatoria. En este trabajo se proponen y evalúan diversas variaciones del algoritmo RF en los que se integran arreglos de cubrimiento (Covering Arrays) (CA) de fuerza dos a siete, y Torres de arreglos de cubrimiento (Towers of Covering Arrays) (TCA) binarios de fuerza dos a seis como mecanismo de selección de características, donde, el número de filas del CA o del TCA permite definir el número de árboles a generar. Cada renglón del CA o el TCA define las características que utiliza cada subconjunto bootstrap (muestreo aleatorio con reemplazo del conjunto de datos) en la creación de cada árbol base. Para comparar el desempeño de los algoritmos propuestos, Random Forest con Covering Arrays (RFCA) y Random Forest con Torres de Covering Arrays (RFTCA), se definieron 33 conjuntos de datos (datasets) que representan problemas de clasificación con diferentes niveles de complejidad obtenidos del repositorio de la Universidad de California en Irvine (UCI). Los algoritmos fueron evaluados usando validación cruzada(cross-validation) de 10 folders y se evidencia que RFCA y RFTCA logran obtener el mejor desempeño basado en los resultados de los test estadísticos no paramétricos de Friedman y Wilcoxon. Con los resultados de exactitud del algoritmo RFCA con respecto al algoritmo de referencia originalmente propuesto por Breiman se obtuvieron seis modelos de árboles de decisión (uno para cada fuerza) que facilitaron la identificación de los tipos de conjunto de datos donde la propuesta RFCA tiene una mayor probabilidad de obtener mejores resultados. Los resultados muestran que en general RFCA obtiene mejores resultados que el estado del arte con una mejora entre 0.5% y 2%.spaUniversidad del CaucaFacultad de Ingeniería Electrónica y Telecomunicaciones Ingeniería de Sistemashttps://creativecommons.org/licenses/by-nc-nd/4.0/https://creativecommons.org/licenses/by-nc-nd/4.0/http://purl.org/coar/access_right/c_abf2Random ForestArreglos de cubrimientoClasificaciónArreglos de cubrimiento para soportar el proceso de selección de características en el clasificador Random ForestTrabajos de gradoinfo:eu-repo/semantics/bachelorThesishttp://purl.org/coar/resource_type/c_7a1fhttp://purl.org/coar/version/c_970fb48d4fbd8a85http://purl.org/coar/version/c_970fb48d4fbd8a85ORIGINALARREGLOS DE CUBRIMIENTO PARA SOPORTAR EL PROCESO DE SELECCIÓN DE CARACTERÍSTICAS EN EL CLASIFICADOR RANDOM FOREST.pdfARREGLOS DE CUBRIMIENTO PARA SOPORTAR EL PROCESO DE SELECCIÓN DE CARACTERÍSTICAS EN EL CLASIFICADOR RANDOM FOREST.pdfapplication/pdf1888345http://repositorio.unicauca.edu.co/bitstream/123456789/1751/1/ARREGLOS%20DE%20CUBRIMIENTO%20PARA%20SOPORTAR%20EL%20PROCESO%20DE%20SELECCI%c3%93N%20DE%20CARACTER%c3%8dSTICAS%20EN%20EL%20CLASIFICADOR%20RANDOM%20FOREST.pdf2061a9722f7deaefe336a07bef8a0887MD51Anexo-3-Propuesta y análisis de resultados de RFTCA.pdfAnexo-3-Propuesta y análisis de resultados de RFTCA.pdfapplication/pdf980712http://repositorio.unicauca.edu.co/bitstream/123456789/1751/2/Anexo-3-Propuesta%20y%20an%c3%a1lisis%20de%20resultados%20de%20RFTCA.pdf40f657096a28a33accb4c3bebe73f640MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-81748http://repositorio.unicauca.edu.co/bitstream/123456789/1751/3/license.txt8a4605be74aa9ea9d79846c1fba20a33MD53123456789/1751oai:repositorio.unicauca.edu.co:123456789/17512021-05-28 09:38:13.723Dspace - Universidad del Caucabiblios@unicauca.edu.coTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=