Una nueva metodología de entrenamiento de redes neuronales y sus implicaciones en la selección de modelos

La predicción de series de tiempo con redes neuronales ha sido una práctica aceptada en la literatura, gracias a las bondades de generalización y ajuste que poseen dichos modelos; sin embargo, el elevado número de factores que deben ser determinados en el proceso de construcción de un modelo de rede...

Full description

Autores:: Sánchez Sánchez, Paola Andrea

Tipo de recurso:: Doctoral thesis

Fecha de publicación:: 2012

Institución:: Universidad Nacional de Colombia

Repositorio:: Universidad Nacional de Colombia

Idioma:: spa

id	UNACIONAL2_2804786197e23d5653c12c5d054bc88a
oai_identifier_str	oai:repositorio.unal.edu.co:unal/9818
network_acronym_str	UNACIONAL2
network_name_str	Universidad Nacional de Colombia
repository_id_str
dc.title.spa.fl_str_mv	Una nueva metodología de entrenamiento de redes neuronales y sus implicaciones en la selección de modelos
title	Una nueva metodología de entrenamiento de redes neuronales y sus implicaciones en la selección de modelos
spellingShingle	Una nueva metodología de entrenamiento de redes neuronales y sus implicaciones en la selección de modelos 0 Generalidades / Computer science, information and general works Redes neuronales Perceptrón multicapa Algoritmo de optimización o entrenamiento Estrategia constructiva Supuesto de reducción del error Selección del modelo Error de ajuste Criterios de información Neural networks Multilayer perceptron Optimization or training algorithm Constructive strategy Assumption of error reduction Model selection Fit error Information criteria
title_short	Una nueva metodología de entrenamiento de redes neuronales y sus implicaciones en la selección de modelos
title_full	Una nueva metodología de entrenamiento de redes neuronales y sus implicaciones en la selección de modelos
title_fullStr	Una nueva metodología de entrenamiento de redes neuronales y sus implicaciones en la selección de modelos
title_full_unstemmed	Una nueva metodología de entrenamiento de redes neuronales y sus implicaciones en la selección de modelos
title_sort	Una nueva metodología de entrenamiento de redes neuronales y sus implicaciones en la selección de modelos
dc.creator.fl_str_mv	Sánchez Sánchez, Paola Andrea
dc.contributor.advisor.spa.fl_str_mv	Velásquez Henao, Juan David (Thesis advisor)
dc.contributor.author.spa.fl_str_mv	Sánchez Sánchez, Paola Andrea
dc.subject.ddc.spa.fl_str_mv	0 Generalidades / Computer science, information and general works
topic	0 Generalidades / Computer science, information and general works Redes neuronales Perceptrón multicapa Algoritmo de optimización o entrenamiento Estrategia constructiva Supuesto de reducción del error Selección del modelo Error de ajuste Criterios de información Neural networks Multilayer perceptron Optimization or training algorithm Constructive strategy Assumption of error reduction Model selection Fit error Information criteria
dc.subject.proposal.spa.fl_str_mv	Redes neuronales Perceptrón multicapa Algoritmo de optimización o entrenamiento Estrategia constructiva Supuesto de reducción del error Selección del modelo Error de ajuste Criterios de información Neural networks Multilayer perceptron Optimization or training algorithm Constructive strategy Assumption of error reduction Model selection Fit error Information criteria
description	La predicción de series de tiempo con redes neuronales ha sido una práctica aceptada en la literatura, gracias a las bondades de generalización y ajuste que poseen dichos modelos; sin embargo, el elevado número de factores que deben ser determinados en el proceso de construcción de un modelo de redes neuronales, a menudo, conduce a resultados inconsistentes puesto que depende en muchas instancias de las decisiones tomadas por el modelador(Zhang et al., 1998).La capacidad de ajuste de una red neuronal se ve afectada por la configuración usada, en especial, en relación al número de neuronas ocultas y de variables de entrada, toda vez que, a medida que el número de parámetros del modelo aumenta, se favorece el aprendizaje de la red y por tanto el ajuste es mejor. En teoría, un proceso iterativo de adición de parámetros (entradas y neuronas ocultas) debería conducir a reducciones sistemáticas en el error de ajuste. En esta tesis se validó la hipótesis que la adición de entradas y neuronas ocultas debe conducir a reducciones en el error de ajuste, donde la evidencia experimental demostró que los métodos de optimización evaluados exhiben comportamientos diferentes a los teóricamente esperados, incumpliendo el supuesto de reducción del error. Por lo tanto, el logro principal de esta tesis es el desarrollo una estrategia para la construcción de modelos de red neuronal basada en el diseño de un algoritmo de entrenamiento que garantice la reducción del error de ajuste a medida que se agregan parámetros a la red neuronal. Para cumplir con el criterio de reducción del error de ajuste, se diseñó una estrategia constructiva orientada a conservar, en el nuevo modelo, los pesos de los parámetros del modelo anterior (modelo con menos neuronas o entradas) y hacer cero los pesos de las nuevas conexiones, como un paso previo a la optimización del modelo. La optimización del nuevo modelo parte del valor de error alcanzado por el modelo anterior y, por lo tanto, debe mejorar o permanecer igual. La aplicación experimental de la estrategia constructiva presenta resultados ampliamente satisfactorios, toda vez que, no sólo se cumple con la reducción del error, sino que se alcanzar valores con precisión cero en el error de ajuste. Igualmente, se desarrollaron modificaciones a la estrategia constructiva de tal forma que se pueda reducir el número de modelos que se requieren evaluar. En este punto se realizaron dos modificaciones, una considerando la adición de entradas de forma secuencial (ordenada), y otra de forma no secuencial. Para lograr la reducción en el número de modelos evaluados, en la estrategia secuencial para cada nuevo modelo se contrastan si debe adicionarse una entrada o una neurona; la decisión se toma basada en el menor error de ajuste. La estrategia no secuencial permite que entradas no contiguas puedan incluirse en la red, de tal forma que, la decisión de incluir una neurona oculta o una entrada, implica evaluar el error de ajuste de todas las entradas disponibles; el nuevo modelo es aquel que aporte mayor beneficio en el error del modelo. Los resultados experimentales satisfacen ampliamente el requerimiento, toda vez que se alcanzan reducciones muy significativas en el número de modelos a evaluar con el uso de ambas estrategias. Posteriormente, se evalúa el impacto de la estrategia constructiva planteada sobre tres categorías de criterios de selección o especificación del modelo: basados en error de ajuste, en criterios de información, y en pruebas estadísticas. La selección basada en las estrategias de especificación de modelos indica que dichos criterios no están en capacidad de elegir el mejor modelo tras contar con un algoritmo constructivo consistente., por lo tanto, carecen de validez. Los resultados encontrados impactan fuertemente los procesos de construcción y especificación de modelos de redes neuronales, toda vez que, conducen a tener modelos sobre-parametrizados con una alta tendencia al sobre-ajuste, lo que se traduce en modelo con muy buen ajuste, pero con pobre generalización y baja parsimonia. Los principales aportes de esta tesis son cuatro: La validación de la hipótesis que la adición iterativa de neuronas ocultas y entradas en un modelo de redes neuronales debe conducir a reducciones en el error de ajuste, y la discusión de sus implicaciones. El desarrollo una estrategia para la construcción de modelos de red neuronal basada en el diseño de un algoritmo de entrenamiento que garantiza la reducción del error de ajuste a medida que se agregan parámetros a la red neuronal. El desarrollo de dos estrategias constructivas modificadas que permiten reducir el número de modelos que se requieren evaluar; una donde las entradas se agregan de forma secuencial y otra, no secuencial. La evaluación de la estrategia constructiva planteada sobre los criterios de selección del modelo /Abstract. Time series prediction with neural networks has been an accepted practice in the literature, for its high ability of generalization and adjustment, however, the large number of factors must be determined in the building a neural network model often leads to inconsistent results since it depends on many instances of decisions made by the modeler (Zhang et al., 1998). Adjustment capacity of a neural network is affected by the configuration used, especially by the number of hidden neurons and input variables. When the number of model parameters increases, improves learning network and therefore the setting is best. In theory, an iterative process of adding parameters (inputs and hidden neurons) should lead to systematic reductions in adjustment error. This thesis validated the hypothesis that addition of inputs and hidden neurons should lead to reductions in the adjustment error. Experimental evidence showed that the optimization methods exhibit different behaviors to the theoretically expected; therefore, the models fail in the reduction assumption of adjustment error. The main achievement of this thesis is the developing a strategy for building neural network models based on the design of a training algorithm that ensures error reduction when added parameters to the neural network. To achieve the reduction assumption of adjustment error, we designed a constructive strategy aimed at conserving the weights of the parameters of the previous model (model with fewer neurons or inputs) and to zero the weights of the new connections, prior to the optimization of the model. The optimization of the new model retains the error value reached by the previous model and, therefore, be improved or remain the same. The experimental application of the constructive approach presented results widely satisfactory, because complies with the reduction of error, and permit to reach values near to zero in the adjustment error. Likewise, we did modifications the constructive strategy so that it can reduce the model numbers that require evaluation. Two modifications were made, one considering adding entries sequentially (ordinate), and other non-sequential. To achieve a reduction in the number of models tested, in the sequential strategy each new model is compared if should be added an entry or a neuron, the decision is based on the lowest adjustment error. The non-sequential strategy allows non-contiguous entries may be included in the network, so that the decision to include a hidden neuron or input involves evaluate all entries available; the new model is one that provides greater reduction in the error. The experimental results fully satisfy the requirements; they achieve very significant reductions in the number of model to evaluate using both strategies. Subsequently, we evaluate the impact of the constructive strategy on three categories of selection criteria or specification of the model: based on adjustment error, in information criteria, and statistical tests. Selection based on the strategies of model specification indicates that none of these criteria are not able to choose the best model, therefore, these strategies are not valid. The results strongly impact the processes of building and specification of neural network models, since, leading to over-parameterized models have a high tendency to over-adjustment, which results in very good model fit, but with poor generalization and low parsimony. The main contributions of this this are four: Validation of the hypothesis that the iterative addition of hidden neurons and inputs in a neural network model should lead to reductions in the fit error, and discussion of its implications. Developing a strategy for building neural network models based on the design of a training algorithm that ensures error reduction when are added parameters to the neural network. Development of two modified constructive strategies that reduce the number of models that require evaluation, one where the inputs are added sequentially and the other, non-sequential. Evaluation of the performance of constructive strategies by model selection criteria
publishDate	2012
dc.date.issued.spa.fl_str_mv	2012
dc.date.accessioned.spa.fl_str_mv	2019-06-24T21:10:56Z
dc.date.available.spa.fl_str_mv	2019-06-24T21:10:56Z
dc.type.spa.fl_str_mv	Trabajo de grado - Doctorado
dc.type.driver.spa.fl_str_mv	info:eu-repo/semantics/doctoralThesis
dc.type.version.spa.fl_str_mv	info:eu-repo/semantics/acceptedVersion
dc.type.coar.spa.fl_str_mv	http://purl.org/coar/resource_type/c_db06
dc.type.content.spa.fl_str_mv	Text
dc.type.redcol.spa.fl_str_mv	http://purl.org/redcol/resource_type/TD
format	http://purl.org/coar/resource_type/c_db06
status_str	acceptedVersion
dc.identifier.uri.none.fl_str_mv	https://repositorio.unal.edu.co/handle/unal/9818
dc.identifier.eprints.spa.fl_str_mv	http://bdigital.unal.edu.co/6843/
url	https://repositorio.unal.edu.co/handle/unal/9818 http://bdigital.unal.edu.co/6843/
dc.language.iso.spa.fl_str_mv	spa
language	spa
dc.relation.ispartof.spa.fl_str_mv	Universidad Nacional de Colombia Sede Medellín Facultad de Minas Escuela de Sistemas Escuela de Sistemas
dc.relation.references.spa.fl_str_mv	Sánchez Sánchez, Paola Andrea (2012) Una nueva metodología de entrenamiento de redes neuronales y sus implicaciones en la selección de modelos. Doctorado thesis, Universidad Nacional de Colombia, Sede Medellín.
dc.rights.spa.fl_str_mv	Derechos reservados - Universidad Nacional de Colombia
dc.rights.coar.fl_str_mv	http://purl.org/coar/access_right/c_abf2
dc.rights.license.spa.fl_str_mv	Atribución-NoComercial 4.0 Internacional
dc.rights.uri.spa.fl_str_mv	http://creativecommons.org/licenses/by-nc/4.0/
dc.rights.accessrights.spa.fl_str_mv	info:eu-repo/semantics/openAccess
rights_invalid_str_mv	Atribución-NoComercial 4.0 Internacional Derechos reservados - Universidad Nacional de Colombia http://creativecommons.org/licenses/by-nc/4.0/ http://purl.org/coar/access_right/c_abf2
eu_rights_str_mv	openAccess
dc.format.mimetype.spa.fl_str_mv	application/pdf
institution	Universidad Nacional de Colombia
bitstream.url.fl_str_mv	https://repositorio.unal.edu.co/bitstream/unal/9818/1/43632277.2012.pdf https://repositorio.unal.edu.co/bitstream/unal/9818/2/43632277.2012.pdf.jpg
bitstream.checksum.fl_str_mv	e167a9bf1665948d37211a7ec7f8b10b dd7cdb24c55b4c63055259ca426d47ce
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Repositorio Institucional Universidad Nacional de Colombia
repository.mail.fl_str_mv	repositorio_nal@unal.edu.co
_version_	1814089884224192512
spelling	Atribución-NoComercial 4.0 InternacionalDerechos reservados - Universidad Nacional de Colombiahttp://creativecommons.org/licenses/by-nc/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Velásquez Henao, Juan David (Thesis advisor)97c5eef3-0c5a-431e-af52-19251f9e98e1-1Sánchez Sánchez, Paola Andrea5014c8de-8283-4c7b-8e93-60f6268942123002019-06-24T21:10:56Z2019-06-24T21:10:56Z2012https://repositorio.unal.edu.co/handle/unal/9818http://bdigital.unal.edu.co/6843/La predicción de series de tiempo con redes neuronales ha sido una práctica aceptada en la literatura, gracias a las bondades de generalización y ajuste que poseen dichos modelos; sin embargo, el elevado número de factores que deben ser determinados en el proceso de construcción de un modelo de redes neuronales, a menudo, conduce a resultados inconsistentes puesto que depende en muchas instancias de las decisiones tomadas por el modelador(Zhang et al., 1998).La capacidad de ajuste de una red neuronal se ve afectada por la configuración usada, en especial, en relación al número de neuronas ocultas y de variables de entrada, toda vez que, a medida que el número de parámetros del modelo aumenta, se favorece el aprendizaje de la red y por tanto el ajuste es mejor. En teoría, un proceso iterativo de adición de parámetros (entradas y neuronas ocultas) debería conducir a reducciones sistemáticas en el error de ajuste. En esta tesis se validó la hipótesis que la adición de entradas y neuronas ocultas debe conducir a reducciones en el error de ajuste, donde la evidencia experimental demostró que los métodos de optimización evaluados exhiben comportamientos diferentes a los teóricamente esperados, incumpliendo el supuesto de reducción del error. Por lo tanto, el logro principal de esta tesis es el desarrollo una estrategia para la construcción de modelos de red neuronal basada en el diseño de un algoritmo de entrenamiento que garantice la reducción del error de ajuste a medida que se agregan parámetros a la red neuronal. Para cumplir con el criterio de reducción del error de ajuste, se diseñó una estrategia constructiva orientada a conservar, en el nuevo modelo, los pesos de los parámetros del modelo anterior (modelo con menos neuronas o entradas) y hacer cero los pesos de las nuevas conexiones, como un paso previo a la optimización del modelo. La optimización del nuevo modelo parte del valor de error alcanzado por el modelo anterior y, por lo tanto, debe mejorar o permanecer igual. La aplicación experimental de la estrategia constructiva presenta resultados ampliamente satisfactorios, toda vez que, no sólo se cumple con la reducción del error, sino que se alcanzar valores con precisión cero en el error de ajuste. Igualmente, se desarrollaron modificaciones a la estrategia constructiva de tal forma que se pueda reducir el número de modelos que se requieren evaluar. En este punto se realizaron dos modificaciones, una considerando la adición de entradas de forma secuencial (ordenada), y otra de forma no secuencial. Para lograr la reducción en el número de modelos evaluados, en la estrategia secuencial para cada nuevo modelo se contrastan si debe adicionarse una entrada o una neurona; la decisión se toma basada en el menor error de ajuste. La estrategia no secuencial permite que entradas no contiguas puedan incluirse en la red, de tal forma que, la decisión de incluir una neurona oculta o una entrada, implica evaluar el error de ajuste de todas las entradas disponibles; el nuevo modelo es aquel que aporte mayor beneficio en el error del modelo. Los resultados experimentales satisfacen ampliamente el requerimiento, toda vez que se alcanzan reducciones muy significativas en el número de modelos a evaluar con el uso de ambas estrategias. Posteriormente, se evalúa el impacto de la estrategia constructiva planteada sobre tres categorías de criterios de selección o especificación del modelo: basados en error de ajuste, en criterios de información, y en pruebas estadísticas. La selección basada en las estrategias de especificación de modelos indica que dichos criterios no están en capacidad de elegir el mejor modelo tras contar con un algoritmo constructivo consistente., por lo tanto, carecen de validez. Los resultados encontrados impactan fuertemente los procesos de construcción y especificación de modelos de redes neuronales, toda vez que, conducen a tener modelos sobre-parametrizados con una alta tendencia al sobre-ajuste, lo que se traduce en modelo con muy buen ajuste, pero con pobre generalización y baja parsimonia. Los principales aportes de esta tesis son cuatro: La validación de la hipótesis que la adición iterativa de neuronas ocultas y entradas en un modelo de redes neuronales debe conducir a reducciones en el error de ajuste, y la discusión de sus implicaciones. El desarrollo una estrategia para la construcción de modelos de red neuronal basada en el diseño de un algoritmo de entrenamiento que garantiza la reducción del error de ajuste a medida que se agregan parámetros a la red neuronal. El desarrollo de dos estrategias constructivas modificadas que permiten reducir el número de modelos que se requieren evaluar; una donde las entradas se agregan de forma secuencial y otra, no secuencial. La evaluación de la estrategia constructiva planteada sobre los criterios de selección del modelo /Abstract. Time series prediction with neural networks has been an accepted practice in the literature, for its high ability of generalization and adjustment, however, the large number of factors must be determined in the building a neural network model often leads to inconsistent results since it depends on many instances of decisions made by the modeler (Zhang et al., 1998). Adjustment capacity of a neural network is affected by the configuration used, especially by the number of hidden neurons and input variables. When the number of model parameters increases, improves learning network and therefore the setting is best. In theory, an iterative process of adding parameters (inputs and hidden neurons) should lead to systematic reductions in adjustment error. This thesis validated the hypothesis that addition of inputs and hidden neurons should lead to reductions in the adjustment error. Experimental evidence showed that the optimization methods exhibit different behaviors to the theoretically expected; therefore, the models fail in the reduction assumption of adjustment error. The main achievement of this thesis is the developing a strategy for building neural network models based on the design of a training algorithm that ensures error reduction when added parameters to the neural network. To achieve the reduction assumption of adjustment error, we designed a constructive strategy aimed at conserving the weights of the parameters of the previous model (model with fewer neurons or inputs) and to zero the weights of the new connections, prior to the optimization of the model. The optimization of the new model retains the error value reached by the previous model and, therefore, be improved or remain the same. The experimental application of the constructive approach presented results widely satisfactory, because complies with the reduction of error, and permit to reach values near to zero in the adjustment error. Likewise, we did modifications the constructive strategy so that it can reduce the model numbers that require evaluation. Two modifications were made, one considering adding entries sequentially (ordinate), and other non-sequential. To achieve a reduction in the number of models tested, in the sequential strategy each new model is compared if should be added an entry or a neuron, the decision is based on the lowest adjustment error. The non-sequential strategy allows non-contiguous entries may be included in the network, so that the decision to include a hidden neuron or input involves evaluate all entries available; the new model is one that provides greater reduction in the error. The experimental results fully satisfy the requirements; they achieve very significant reductions in the number of model to evaluate using both strategies. Subsequently, we evaluate the impact of the constructive strategy on three categories of selection criteria or specification of the model: based on adjustment error, in information criteria, and statistical tests. Selection based on the strategies of model specification indicates that none of these criteria are not able to choose the best model, therefore, these strategies are not valid. The results strongly impact the processes of building and specification of neural network models, since, leading to over-parameterized models have a high tendency to over-adjustment, which results in very good model fit, but with poor generalization and low parsimony. The main contributions of this this are four: Validation of the hypothesis that the iterative addition of hidden neurons and inputs in a neural network model should lead to reductions in the fit error, and discussion of its implications. Developing a strategy for building neural network models based on the design of a training algorithm that ensures error reduction when are added parameters to the neural network. Development of two modified constructive strategies that reduce the number of models that require evaluation, one where the inputs are added sequentially and the other, non-sequential. Evaluation of the performance of constructive strategies by model selection criteriaDoctoradoapplication/pdfspaUniversidad Nacional de Colombia Sede Medellín Facultad de Minas Escuela de SistemasEscuela de SistemasSánchez Sánchez, Paola Andrea (2012) Una nueva metodología de entrenamiento de redes neuronales y sus implicaciones en la selección de modelos. Doctorado thesis, Universidad Nacional de Colombia, Sede Medellín.0 Generalidades / Computer science, information and general worksRedes neuronalesPerceptrón multicapaAlgoritmo de optimización o entrenamientoEstrategia constructivaSupuesto de reducción del errorSelección del modeloError de ajusteCriterios de informaciónNeural networksMultilayer perceptronOptimization or training algorithmConstructive strategyAssumption of error reductionModel selectionFit errorInformation criteriaUna nueva metodología de entrenamiento de redes neuronales y sus implicaciones en la selección de modelosTrabajo de grado - Doctoradoinfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/acceptedVersionhttp://purl.org/coar/resource_type/c_db06Texthttp://purl.org/redcol/resource_type/TDORIGINAL43632277.2012.pdfTesis de Doctorado en Ingeniería - Sistemasapplication/pdf2976379https://repositorio.unal.edu.co/bitstream/unal/9818/1/43632277.2012.pdfe167a9bf1665948d37211a7ec7f8b10bMD51THUMBNAIL43632277.2012.pdf.jpg43632277.2012.pdf.jpgGenerated Thumbnailimage/jpeg6156https://repositorio.unal.edu.co/bitstream/unal/9818/2/43632277.2012.pdf.jpgdd7cdb24c55b4c63055259ca426d47ceMD52unal/9818oai:repositorio.unal.edu.co:unal/98182023-09-14 10:53:59.258Repositorio Institucional Universidad Nacional de Colombiarepositorio_nal@unal.edu.co

Una nueva metodología de entrenamiento de redes neuronales y sus implicaciones en la selección de modelos

Publicaciones similares