Regresión por mínimos cuadrados parciales PLS Aplicada a datos variedad valuados

La regresión por mínimos cuadrados parciales (PLS) es una técnica de relación de variables introducida por Wold (1972, 1975, 1985), Wold (1972), Wold (1985) y extendida posteriormente al campo de la quimiometría por su hermano Wold Et al. (1984), Wold (2001). La regresión lineal múltiple ordinaria g...

Full description

Autores:
Gaviria Peña, Carlos Alberto
Tipo de recurso:
Fecha de publicación:
2016
Institución:
Universidad Nacional de Colombia
Repositorio:
Universidad Nacional de Colombia
Idioma:
spa
OAI Identifier:
oai:repositorio.unal.edu.co:unal/57110
Acceso en línea:
https://repositorio.unal.edu.co/handle/unal/57110
http://bdigital.unal.edu.co/53233/
Palabra clave:
51 Matemáticas / Mathematics
Mínimos cuadrados Parciales PLS
Componentes Principales PCR
Regresión de ridge y lasso
Análisis de Correlación Canónica CCA
Variedades
Datos de imágenes
Regresión PLS intervalo-valuada
Principal Components PCR
Partial Least Square PLS
Manifolds
Image data
PLS Regression interval-valued
Rights
openAccess
License
Atribución-NoComercial 4.0 Internacional
Description
Summary:La regresión por mínimos cuadrados parciales (PLS) es una técnica de relación de variables introducida por Wold (1972, 1975, 1985), Wold (1972), Wold (1985) y extendida posteriormente al campo de la quimiometría por su hermano Wold Et al. (1984), Wold (2001). La regresión lineal múltiple ordinaria generalmente manipula variables controlables o fácilmente medibles para predecir el comportamiento de otras variables y es usual cuando las variables explicativas son pocas, cuando no existen problemas de multicolinealidad y cuando existe una relación clara entre las variables. Si alguna de estas tres condiciones falla entonces la regresión lineal múltiple ordinaria no es eficaz. Por otro lado, la regresión lineal múltiple se puede utilizar con muchas variables explicativas, pero cuando el número de variables es demasiado grande se puede generar un modelo que ajuste muy bien los datos, pero que falla en la predicción de nuevos datos. En estos casos, donde existen muchas variables explicativas, puede que existan pocas variables no observables que recojan la mayor variabilidad de la(s) variable(s) respuesta. El objetivo general de la regresión PLS es extraer estas variables latentes, recogiendo la mayor variación de las variables explicativas de manera que sirvan para modelar la(s) variable(s) respuesta de la mejor manera posible. Actualmente existen datos que provienen de problemas reales y tales que no pertenecen a un Espacio Euclídeo y por tal razón deben implementarse metodologías para datos con características especiales. Existen dos líneas en particular para abordar éste problema: la primera es la geometría diferencial, que permite construir una variedad que transforma los datos y los transporta a un espacio Euclídeo donde se hace la regresión múltiple requerida y posteriormente transporta los datos nuevamente sobre el espacio no Euclídeo donde se hacen las respectivas interpretaciones con los resultados obtenidos. La segunda línea es la línea del embebimiento que permite incrustar el conjunto que no es un espacio Euclídeo en otro que si es espacio Euclídeo, mediante la construcción de un conjunto cociente que resulta de una relación de equivalencia entre los elementos del conjunto inicial. En este trabajo se implementa la metodología de regresión PLS y se aplica a un tipo de datos variedad valuados, en particular datos relacionados con imágenes y se realiza la evaluación de dicha metodología usando criterios apropiados mediante la comparación con otras metodologías clásicas para datos Euclídeos, los cuales se tratarán de implementar al tipo de datos utilizado. La metodología de regresión PLS se compara con metodologías tales como regresión por componentes principales PCR, análisis y correlación canónico, regresión de Ridge y regresión Lasso. Para dicho propósito se implementa la metodología PLS en R utilizando datos simulados y datos reales, si es posible. Por otro lado, a manera de trabajo futuro, se extiende la metodología de regresión PLS al caso donde tanto las variables explicativas como las variables respuesta y los coeficientes de regresión son del tipo intervalo. De ésta manera se propone una metodología de regresión que resuelve tres problemas que se presentan con los datos de tipo real: en primer lugar problemas de multicolinealidad tanto en las variables explicativas como en las variables respuesta, en segundo lugar problemas cuando los datos no pertenecen a un Espacio Euclídeo y por último problemas cuando la incertidumbre en los datos se representa por medio de intervalos. De ésta manera este trabajo presenta dos enfoques diferentes: el primer enfoque desde la línea de las variedades Riemannianas, en particular sobre el conjunto de matrices definidas positivas y el segundo enfoque desde la línea del embebimiento, en particular sobre los conjuntos de multi-intervalos y multi-matrices.