Una nueva metodología de entrenamiento de redes neuronales y sus implicaciones en la selección de modelos

La predicción de series de tiempo con redes neuronales ha sido una práctica aceptada en la literatura, gracias a las bondades de generalización y ajuste que poseen dichos modelos; sin embargo, el elevado número de factores que deben ser determinados en el proceso de construcción de un modelo de rede...

Full description

Autores:
Sánchez Sánchez, Paola Andrea
Tipo de recurso:
Doctoral thesis
Fecha de publicación:
2012
Institución:
Universidad Nacional de Colombia
Repositorio:
Universidad Nacional de Colombia
Idioma:
spa
OAI Identifier:
oai:repositorio.unal.edu.co:unal/9818
Acceso en línea:
https://repositorio.unal.edu.co/handle/unal/9818
http://bdigital.unal.edu.co/6843/
Palabra clave:
0 Generalidades / Computer science, information and general works
Redes neuronales
Perceptrón multicapa
Algoritmo de optimización o entrenamiento
Estrategia constructiva
Supuesto de reducción del error
Selección del modelo
Error de ajuste
Criterios de información
Neural networks
Multilayer perceptron
Optimization or training algorithm
Constructive strategy
Assumption of error reduction
Model selection
Fit error
Information criteria
Rights
openAccess
License
Atribución-NoComercial 4.0 Internacional
Description
Summary:La predicción de series de tiempo con redes neuronales ha sido una práctica aceptada en la literatura, gracias a las bondades de generalización y ajuste que poseen dichos modelos; sin embargo, el elevado número de factores que deben ser determinados en el proceso de construcción de un modelo de redes neuronales, a menudo, conduce a resultados inconsistentes puesto que depende en muchas instancias de las decisiones tomadas por el modelador(Zhang et al., 1998).La capacidad de ajuste de una red neuronal se ve afectada por la configuración usada, en especial, en relación al número de neuronas ocultas y de variables de entrada, toda vez que, a medida que el número de parámetros del modelo aumenta, se favorece el aprendizaje de la red y por tanto el ajuste es mejor. En teoría, un proceso iterativo de adición de parámetros (entradas y neuronas ocultas) debería conducir a reducciones sistemáticas en el error de ajuste. En esta tesis se validó la hipótesis que la adición de entradas y neuronas ocultas debe conducir a reducciones en el error de ajuste, donde la evidencia experimental demostró que los métodos de optimización evaluados exhiben comportamientos diferentes a los teóricamente esperados, incumpliendo el supuesto de reducción del error. Por lo tanto, el logro principal de esta tesis es el desarrollo una estrategia para la construcción de modelos de red neuronal basada en el diseño de un algoritmo de entrenamiento que garantice la reducción del error de ajuste a medida que se agregan parámetros a la red neuronal. Para cumplir con el criterio de reducción del error de ajuste, se diseñó una estrategia constructiva orientada a conservar, en el nuevo modelo, los pesos de los parámetros del modelo anterior (modelo con menos neuronas o entradas) y hacer cero los pesos de las nuevas conexiones, como un paso previo a la optimización del modelo. La optimización del nuevo modelo parte del valor de error alcanzado por el modelo anterior y, por lo tanto, debe mejorar o permanecer igual. La aplicación experimental de la estrategia constructiva presenta resultados ampliamente satisfactorios, toda vez que, no sólo se cumple con la reducción del error, sino que se alcanzar valores con precisión cero en el error de ajuste. Igualmente, se desarrollaron modificaciones a la estrategia constructiva de tal forma que se pueda reducir el número de modelos que se requieren evaluar. En este punto se realizaron dos modificaciones, una considerando la adición de entradas de forma secuencial (ordenada), y otra de forma no secuencial. Para lograr la reducción en el número de modelos evaluados, en la estrategia secuencial para cada nuevo modelo se contrastan si debe adicionarse una entrada o una neurona; la decisión se toma basada en el menor error de ajuste. La estrategia no secuencial permite que entradas no contiguas puedan incluirse en la red, de tal forma que, la decisión de incluir una neurona oculta o una entrada, implica evaluar el error de ajuste de todas las entradas disponibles; el nuevo modelo es aquel que aporte mayor beneficio en el error del modelo. Los resultados experimentales satisfacen ampliamente el requerimiento, toda vez que se alcanzan reducciones muy significativas en el número de modelos a evaluar con el uso de ambas estrategias. Posteriormente, se evalúa el impacto de la estrategia constructiva planteada sobre tres categorías de criterios de selección o especificación del modelo: basados en error de ajuste, en criterios de información, y en pruebas estadísticas. La selección basada en las estrategias de especificación de modelos indica que dichos criterios no están en capacidad de elegir el mejor modelo tras contar con un algoritmo constructivo consistente., por lo tanto, carecen de validez. Los resultados encontrados impactan fuertemente los procesos de construcción y especificación de modelos de redes neuronales, toda vez que, conducen a tener modelos sobre-parametrizados con una alta tendencia al sobre-ajuste, lo que se traduce en modelo con muy buen ajuste, pero con pobre generalización y baja parsimonia. Los principales aportes de esta tesis son cuatro: La validación de la hipótesis que la adición iterativa de neuronas ocultas y entradas en un modelo de redes neuronales debe conducir a reducciones en el error de ajuste, y la discusión de sus implicaciones. El desarrollo una estrategia para la construcción de modelos de red neuronal basada en el diseño de un algoritmo de entrenamiento que garantiza la reducción del error de ajuste a medida que se agregan parámetros a la red neuronal. El desarrollo de dos estrategias constructivas modificadas que permiten reducir el número de modelos que se requieren evaluar; una donde las entradas se agregan de forma secuencial y otra, no secuencial. La evaluación de la estrategia constructiva planteada sobre los criterios de selección del modelo /Abstract. Time series prediction with neural networks has been an accepted practice in the literature, for its high ability of generalization and adjustment, however, the large number of factors must be determined in the building a neural network model often leads to inconsistent results since it depends on many instances of decisions made by the modeler (Zhang et al., 1998). Adjustment capacity of a neural network is affected by the configuration used, especially by the number of hidden neurons and input variables. When the number of model parameters increases, improves learning network and therefore the setting is best. In theory, an iterative process of adding parameters (inputs and hidden neurons) should lead to systematic reductions in adjustment error. This thesis validated the hypothesis that addition of inputs and hidden neurons should lead to reductions in the adjustment error. Experimental evidence showed that the optimization methods exhibit different behaviors to the theoretically expected; therefore, the models fail in the reduction assumption of adjustment error. The main achievement of this thesis is the developing a strategy for building neural network models based on the design of a training algorithm that ensures error reduction when added parameters to the neural network. To achieve the reduction assumption of adjustment error, we designed a constructive strategy aimed at conserving the weights of the parameters of the previous model (model with fewer neurons or inputs) and to zero the weights of the new connections, prior to the optimization of the model. The optimization of the new model retains the error value reached by the previous model and, therefore, be improved or remain the same. The experimental application of the constructive approach presented results widely satisfactory, because complies with the reduction of error, and permit to reach values near to zero in the adjustment error. Likewise, we did modifications the constructive strategy so that it can reduce the model numbers that require evaluation. Two modifications were made, one considering adding entries sequentially (ordinate), and other non-sequential. To achieve a reduction in the number of models tested, in the sequential strategy each new model is compared if should be added an entry or a neuron, the decision is based on the lowest adjustment error. The non-sequential strategy allows non-contiguous entries may be included in the network, so that the decision to include a hidden neuron or input involves evaluate all entries available; the new model is one that provides greater reduction in the error. The experimental results fully satisfy the requirements; they achieve very significant reductions in the number of model to evaluate using both strategies. Subsequently, we evaluate the impact of the constructive strategy on three categories of selection criteria or specification of the model: based on adjustment error, in information criteria, and statistical tests. Selection based on the strategies of model specification indicates that none of these criteria are not able to choose the best model, therefore, these strategies are not valid. The results strongly impact the processes of building and specification of neural network models, since, leading to over-parameterized models have a high tendency to over-adjustment, which results in very good model fit, but with poor generalization and low parsimony. The main contributions of this this are four: Validation of the hypothesis that the iterative addition of hidden neurons and inputs in a neural network model should lead to reductions in the fit error, and discussion of its implications. Developing a strategy for building neural network models based on the design of a training algorithm that ensures error reduction when are added parameters to the neural network. Development of two modified constructive strategies that reduce the number of models that require evaluation, one where the inputs are added sequentially and the other, non-sequential. Evaluation of the performance of constructive strategies by model selection criteria