Automatic determination of the learning rate for multivariate and multinomial regression models
A lo largo de los años, la inteligencia artificial se ha convertido en un campo ampliamente investigado y aplicado, como resultado de los importantes avances tecnológicos y la expansión de los recursos informáticos. La inteligencia artificial intenta no solo comprender cómo funciona la mente humana,...
- Autores:
- Tipo de recurso:
- Fecha de publicación:
- 2022
- Institución:
- Universidad del Rosario
- Repositorio:
- Repositorio EdocUR - U. Rosario
- Idioma:
- eng
- OAI Identifier:
- oai:repository.urosario.edu.co:10336/38190
- Acceso en línea:
- https://doi.org/10.48713/10336_38190
https://repository.urosario.edu.co/handle/10336/38190
- Palabra clave:
- Tasa de aprendizaje
Gradiente descendente
Regresión
Regresión multinomial
Regresión multivariada
Algoritmos de aprendizaje
Sistemas dinámicos
Learning rate
Gradient descent
Regression
Multinomial regression
Multivariate regression
Learning algorithms
Dynamical systems
- Rights
- License
- Attribution-NonCommercial-ShareAlike 4.0 International
Summary: | A lo largo de los años, la inteligencia artificial se ha convertido en un campo ampliamente investigado y aplicado, como resultado de los importantes avances tecnológicos y la expansión de los recursos informáticos. La inteligencia artificial intenta no solo comprender cómo funciona la mente humana, sino también desarrollar sistemas que puedan imitar el comportamiento humano. El aprendizaje automático es una de las principales ramas de la inteligencia artificial y su objetivo es construir y mejorar modelos que puedan aprender de un conjunto de datos y de la experiencia, a través de métodos computacionales, sin necesidad de ser programados explícitamente. Los algoritmos de aprendizaje automático construyen modelos basados en datos de muestra, con el fin de hacer predicciones o decisiones, y se utilizan en diferentes aplicaciones, como medicina, visión artificial, clasificación de imágenes, entre otras. Un algoritmo de aprendizaje automático es un programa que encuentra patrones o hace predicciones a partir de datos nunca antes vistos. Dependiendo de los objetivos del algoritmo, así como de los datos utilizados, existen diferentes tipos de modelos de aprendizaje: aprendizaje supervisado, aprendizaje no supervisado y aprendizaje por refuerzo. Uno de los algoritmos de aprendizaje más comunes es Gradient Descent, que se utiliza para encontrar un mínimo local de una función diferenciable. Funciona dando pasos repetidos en la dirección opuesta al gradiente de la función. El tamaño de los pasos tomados por el algoritmo de descenso de gradiente está determinado por un hiperparámetro conocido como Tasa de aprendizaje. Este parámetro indica qué tan rápido o lento es el movimiento hacia los parámetros óptimos del algoritmo. Por lo general, se configura manualmente. Sin embargo, para alcanzar los mínimos de función es necesario establecer una tasa de aprendizaje adecuada, es decir, ni demasiado grande ni demasiado pequeña. En el primer caso, los pasos dados son demasiado grandes y, en consecuencia, el algoritmo puede divergir. Por el contrario, si la tasa de aprendizaje es demasiado pequeña, resulta en un aprendizaje lento y el algoritmo tampoco podría converger nunca. La mayoría de las veces se desea un aprendizaje rápido, por lo que se pueden seleccionar altas tasas de aprendizaje. Sin embargo, es importante seleccionar el valor adecuado para este parámetro, de modo que se pueda garantizar la convergencia del algoritmo. En (2021, Ruiz) se presentó un método para determinar un límite superior para la tasa de aprendizaje de modelos basados en modelos de regresión lineal, haciendo un análisis del algoritmo de gradiente descendente como un sistema dinámico discreto. Este trabajo de tesis pretende extender estos resultados a modelos basados en clasificación y regresión multinomial. También buscamos encontrar un valor óptimo para la tasa de aprendizaje para estos métodos. A lo largo de esta tesis se desarrolla un algoritmo que determina automáticamente un valor óptimo para la tasa de aprendizaje de los modelos de clasificación y regresión. En primer lugar, los resultados obtenidos para los modelos de regresión lineal se generalizan a otras funciones de activación. Como resultado, se encuentran un límite superior y un valor óptimo para la tasa de aprendizaje para los modelos que usan regresión y clasificación. Luego, los resultados obtenidos se extienden a un modelo de regresión multinomial. Proponemos un análisis del descenso de gradiente como un sistema dinámico discreto, donde la cota superior surge como criterio para determinar la estabilidad de este sistema. Además, presentamos un valor óptimo para la tasa de aprendizaje, que minimiza la suma de las distancias de los polos extremos del sistema dinámico estudiado. Este análisis se realiza linealizando el algoritmo de descenso de gradiente y aplicándolo a la regresión lineal, logística y multinomial. El límite superior y el valor óptimo de la tasa de aprendizaje son aproximaciones al valor óptimo que garantizan la convergencia más rápida del algoritmo. Presentamos simulaciones y experimentos para comprobar los resultados obtenidos. Primero los probamos con ejemplos de juguetes, creando manualmente los datos para estudiar el comportamiento del algoritmo para el modelo de regresión lineal y logística. Luego, validamos nuestro enfoque en conjuntos de datos reales. Los resultados muestran que, aunque la tasa de aprendizaje máxima, que viene dada por la cota superior, parece hacer que el algoritmo converja más rápido que la tasa de aprendizaje óptima para el caso logístico y multinomial, es mejor utilizar este último valor, ya que garantiza una convergencia suave y relativamente rápida al mínimo en todos los casos |
---|