Diseño e implementación de una herramienta con metaheurísticas para la aproximación de sub-espacios óptimos en problemas de regresión lineal

Gracias a los avances tecnológicos, los sistemas de información cada día han ido almacenando conjuntos de datos cada vez más grandes. Por lo anterior, crear modelos de estimación ha sido una tarea necesaria en diferentes campos de acción. La regresión lineal, como modelo matemático, es entonces una...

Full description

Autores:
Betancur Cervantes, Fabián Andres
Castro Calvo, Ruben Dario
Tipo de recurso:
Fecha de publicación:
2016
Institución:
Universidad del Norte
Repositorio:
Repositorio Uninorte
Idioma:
spa
OAI Identifier:
oai:manglar.uninorte.edu.co:10584/5846
Acceso en línea:
http://hdl.handle.net/10584/5846
Palabra clave:
Regresión lineal
Validación cruzada
Metaheurísticas
Linear regression
Metaheuristics
Cross Validation
Rights
License
Universidad del Norte
Description
Summary:Gracias a los avances tecnológicos, los sistemas de información cada día han ido almacenando conjuntos de datos cada vez más grandes. Por lo anterior, crear modelos de estimación ha sido una tarea necesaria en diferentes campos de acción. La regresión lineal, como modelo matemático, es entonces una herramienta de ajuste que aproxima la relación que hay entre la variable dependiente (la solución asociada al sub-espacio) y las variables independientes (los atributos de grupo de muestras dadas). El inconveniente que presenta la regresión lineal es que compromete cierta precisión en el ajuste a cambio de tener un tiempo menor de procesamiento. El proyecto presenta como resultado cuatro mecanismos de optimización combinatoria (basados en: Búsqueda Tabú, Recocido Simulado, Colonia de Hormigas y un Algoritmo Genético) que realizan el proceso de estimación agrupando atributos del conjunto de datos haciendo posible la generación de un sub-espacio más óptimo que el de la regresión lineal simple tradicional. La solución propuesta realiza agrupamiento de atributos y consta de algoritmos de validación cruzada que generan los coeficientes para la regresión creada, estos son buscados mediante una descomposición en valores singulares, efectuando una mejora en la velocidad con una perdida muy baja de precisión, esto se valida con el método de mínimos cuadrados, considerando que la distancia entre las ecuaciones generadas represente mejor la muestra. Cuando se obtiene la mejor solución, luego de realizar distintas iteraciones, se obtienen los coeficientes obtenidos por el recurso desarrollado. Para realizar las pruebas se tomaron diferentes conjuntos de datos con una cantidad relativamente grande de atributos (20 a 100), todos ellos de libre acceso obteniendo así sub-espacios en los que el error de aproximación era menor al de la solución obtenida por medio de la regresión lineal tradicional.