Regresión por mínimos cuadrados parciales PLS Aplicada a datos variedad valuados
La regresión por mínimos cuadrados parciales (PLS) es una técnica de relación de variables introducida por Wold (1972, 1975, 1985), Wold (1972), Wold (1985) y extendida posteriormente al campo de la quimiometría por su hermano Wold Et al. (1984), Wold (2001). La regresión lineal múltiple ordinaria g...
- Autores:
-
Gaviria Peña, Carlos Alberto
- Tipo de recurso:
- Fecha de publicación:
- 2016
- Institución:
- Universidad Nacional de Colombia
- Repositorio:
- Universidad Nacional de Colombia
- Idioma:
- spa
- OAI Identifier:
- oai:repositorio.unal.edu.co:unal/57110
- Acceso en línea:
- https://repositorio.unal.edu.co/handle/unal/57110
http://bdigital.unal.edu.co/53233/
- Palabra clave:
- 51 Matemáticas / Mathematics
Mínimos cuadrados Parciales PLS
Componentes Principales PCR
Regresión de ridge y lasso
Análisis de Correlación Canónica CCA
Variedades
Datos de imágenes
Regresión PLS intervalo-valuada
Principal Components PCR
Partial Least Square PLS
Manifolds
Image data
PLS Regression interval-valued
- Rights
- openAccess
- License
- Atribución-NoComercial 4.0 Internacional
id |
UNACIONAL2_1fc78b58e4aff4209b97afba3a464786 |
---|---|
oai_identifier_str |
oai:repositorio.unal.edu.co:unal/57110 |
network_acronym_str |
UNACIONAL2 |
network_name_str |
Universidad Nacional de Colombia |
repository_id_str |
|
dc.title.spa.fl_str_mv |
Regresión por mínimos cuadrados parciales PLS Aplicada a datos variedad valuados |
title |
Regresión por mínimos cuadrados parciales PLS Aplicada a datos variedad valuados |
spellingShingle |
Regresión por mínimos cuadrados parciales PLS Aplicada a datos variedad valuados 51 Matemáticas / Mathematics Mínimos cuadrados Parciales PLS Componentes Principales PCR Regresión de ridge y lasso Análisis de Correlación Canónica CCA Variedades Datos de imágenes Regresión PLS intervalo-valuada Principal Components PCR Partial Least Square PLS Manifolds Image data PLS Regression interval-valued |
title_short |
Regresión por mínimos cuadrados parciales PLS Aplicada a datos variedad valuados |
title_full |
Regresión por mínimos cuadrados parciales PLS Aplicada a datos variedad valuados |
title_fullStr |
Regresión por mínimos cuadrados parciales PLS Aplicada a datos variedad valuados |
title_full_unstemmed |
Regresión por mínimos cuadrados parciales PLS Aplicada a datos variedad valuados |
title_sort |
Regresión por mínimos cuadrados parciales PLS Aplicada a datos variedad valuados |
dc.creator.fl_str_mv |
Gaviria Peña, Carlos Alberto |
dc.contributor.author.spa.fl_str_mv |
Gaviria Peña, Carlos Alberto |
dc.contributor.spa.fl_str_mv |
Pérez Agámez, Raúl Alberto |
dc.subject.ddc.spa.fl_str_mv |
51 Matemáticas / Mathematics |
topic |
51 Matemáticas / Mathematics Mínimos cuadrados Parciales PLS Componentes Principales PCR Regresión de ridge y lasso Análisis de Correlación Canónica CCA Variedades Datos de imágenes Regresión PLS intervalo-valuada Principal Components PCR Partial Least Square PLS Manifolds Image data PLS Regression interval-valued |
dc.subject.proposal.spa.fl_str_mv |
Mínimos cuadrados Parciales PLS Componentes Principales PCR Regresión de ridge y lasso Análisis de Correlación Canónica CCA Variedades Datos de imágenes Regresión PLS intervalo-valuada Principal Components PCR Partial Least Square PLS Manifolds Image data PLS Regression interval-valued |
description |
La regresión por mínimos cuadrados parciales (PLS) es una técnica de relación de variables introducida por Wold (1972, 1975, 1985), Wold (1972), Wold (1985) y extendida posteriormente al campo de la quimiometría por su hermano Wold Et al. (1984), Wold (2001). La regresión lineal múltiple ordinaria generalmente manipula variables controlables o fácilmente medibles para predecir el comportamiento de otras variables y es usual cuando las variables explicativas son pocas, cuando no existen problemas de multicolinealidad y cuando existe una relación clara entre las variables. Si alguna de estas tres condiciones falla entonces la regresión lineal múltiple ordinaria no es eficaz. Por otro lado, la regresión lineal múltiple se puede utilizar con muchas variables explicativas, pero cuando el número de variables es demasiado grande se puede generar un modelo que ajuste muy bien los datos, pero que falla en la predicción de nuevos datos. En estos casos, donde existen muchas variables explicativas, puede que existan pocas variables no observables que recojan la mayor variabilidad de la(s) variable(s) respuesta. El objetivo general de la regresión PLS es extraer estas variables latentes, recogiendo la mayor variación de las variables explicativas de manera que sirvan para modelar la(s) variable(s) respuesta de la mejor manera posible. Actualmente existen datos que provienen de problemas reales y tales que no pertenecen a un Espacio Euclídeo y por tal razón deben implementarse metodologías para datos con características especiales. Existen dos líneas en particular para abordar éste problema: la primera es la geometría diferencial, que permite construir una variedad que transforma los datos y los transporta a un espacio Euclídeo donde se hace la regresión múltiple requerida y posteriormente transporta los datos nuevamente sobre el espacio no Euclídeo donde se hacen las respectivas interpretaciones con los resultados obtenidos. La segunda línea es la línea del embebimiento que permite incrustar el conjunto que no es un espacio Euclídeo en otro que si es espacio Euclídeo, mediante la construcción de un conjunto cociente que resulta de una relación de equivalencia entre los elementos del conjunto inicial. En este trabajo se implementa la metodología de regresión PLS y se aplica a un tipo de datos variedad valuados, en particular datos relacionados con imágenes y se realiza la evaluación de dicha metodología usando criterios apropiados mediante la comparación con otras metodologías clásicas para datos Euclídeos, los cuales se tratarán de implementar al tipo de datos utilizado. La metodología de regresión PLS se compara con metodologías tales como regresión por componentes principales PCR, análisis y correlación canónico, regresión de Ridge y regresión Lasso. Para dicho propósito se implementa la metodología PLS en R utilizando datos simulados y datos reales, si es posible. Por otro lado, a manera de trabajo futuro, se extiende la metodología de regresión PLS al caso donde tanto las variables explicativas como las variables respuesta y los coeficientes de regresión son del tipo intervalo. De ésta manera se propone una metodología de regresión que resuelve tres problemas que se presentan con los datos de tipo real: en primer lugar problemas de multicolinealidad tanto en las variables explicativas como en las variables respuesta, en segundo lugar problemas cuando los datos no pertenecen a un Espacio Euclídeo y por último problemas cuando la incertidumbre en los datos se representa por medio de intervalos. De ésta manera este trabajo presenta dos enfoques diferentes: el primer enfoque desde la línea de las variedades Riemannianas, en particular sobre el conjunto de matrices definidas positivas y el segundo enfoque desde la línea del embebimiento, en particular sobre los conjuntos de multi-intervalos y multi-matrices. |
publishDate |
2016 |
dc.date.issued.spa.fl_str_mv |
2016-08-03 |
dc.date.accessioned.spa.fl_str_mv |
2019-07-02T12:26:12Z |
dc.date.available.spa.fl_str_mv |
2019-07-02T12:26:12Z |
dc.type.spa.fl_str_mv |
Trabajo de grado - Maestría |
dc.type.driver.spa.fl_str_mv |
info:eu-repo/semantics/masterThesis |
dc.type.version.spa.fl_str_mv |
info:eu-repo/semantics/acceptedVersion |
dc.type.content.spa.fl_str_mv |
Text |
dc.type.redcol.spa.fl_str_mv |
http://purl.org/redcol/resource_type/TM |
status_str |
acceptedVersion |
dc.identifier.uri.none.fl_str_mv |
https://repositorio.unal.edu.co/handle/unal/57110 |
dc.identifier.eprints.spa.fl_str_mv |
http://bdigital.unal.edu.co/53233/ |
url |
https://repositorio.unal.edu.co/handle/unal/57110 http://bdigital.unal.edu.co/53233/ |
dc.language.iso.spa.fl_str_mv |
spa |
language |
spa |
dc.relation.ispartof.spa.fl_str_mv |
Universidad Nacional de Colombia Sede Medellín Facultad de Ciencias Escuela de Estadística Escuela de Estadística |
dc.relation.references.spa.fl_str_mv |
Gaviria Peña, Carlos Alberto (2016) Regresión por mínimos cuadrados parciales PLS Aplicada a datos variedad valuados. Maestría thesis, Universidad Nacional de Colombia - Sede Medellín. |
dc.rights.spa.fl_str_mv |
Derechos reservados - Universidad Nacional de Colombia |
dc.rights.coar.fl_str_mv |
http://purl.org/coar/access_right/c_abf2 |
dc.rights.license.spa.fl_str_mv |
Atribución-NoComercial 4.0 Internacional |
dc.rights.uri.spa.fl_str_mv |
http://creativecommons.org/licenses/by-nc/4.0/ |
dc.rights.accessrights.spa.fl_str_mv |
info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Atribución-NoComercial 4.0 Internacional Derechos reservados - Universidad Nacional de Colombia http://creativecommons.org/licenses/by-nc/4.0/ http://purl.org/coar/access_right/c_abf2 |
eu_rights_str_mv |
openAccess |
dc.format.mimetype.spa.fl_str_mv |
application/pdf |
institution |
Universidad Nacional de Colombia |
bitstream.url.fl_str_mv |
https://repositorio.unal.edu.co/bitstream/unal/57110/1/8105560.2016.pdf https://repositorio.unal.edu.co/bitstream/unal/57110/2/8105560.2016.pdf.jpg |
bitstream.checksum.fl_str_mv |
092a36266db54a7875bb6a7b02828787 d8567812717c84bfb84f82e5597509bd |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Repositorio Institucional Universidad Nacional de Colombia |
repository.mail.fl_str_mv |
repositorio_nal@unal.edu.co |
_version_ |
1814089312551043072 |
spelling |
Atribución-NoComercial 4.0 InternacionalDerechos reservados - Universidad Nacional de Colombiahttp://creativecommons.org/licenses/by-nc/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Pérez Agámez, Raúl AlbertoGaviria Peña, Carlos Alberto2d2fdf65-d448-4100-a0f8-7478fb541f0a3002019-07-02T12:26:12Z2019-07-02T12:26:12Z2016-08-03https://repositorio.unal.edu.co/handle/unal/57110http://bdigital.unal.edu.co/53233/La regresión por mínimos cuadrados parciales (PLS) es una técnica de relación de variables introducida por Wold (1972, 1975, 1985), Wold (1972), Wold (1985) y extendida posteriormente al campo de la quimiometría por su hermano Wold Et al. (1984), Wold (2001). La regresión lineal múltiple ordinaria generalmente manipula variables controlables o fácilmente medibles para predecir el comportamiento de otras variables y es usual cuando las variables explicativas son pocas, cuando no existen problemas de multicolinealidad y cuando existe una relación clara entre las variables. Si alguna de estas tres condiciones falla entonces la regresión lineal múltiple ordinaria no es eficaz. Por otro lado, la regresión lineal múltiple se puede utilizar con muchas variables explicativas, pero cuando el número de variables es demasiado grande se puede generar un modelo que ajuste muy bien los datos, pero que falla en la predicción de nuevos datos. En estos casos, donde existen muchas variables explicativas, puede que existan pocas variables no observables que recojan la mayor variabilidad de la(s) variable(s) respuesta. El objetivo general de la regresión PLS es extraer estas variables latentes, recogiendo la mayor variación de las variables explicativas de manera que sirvan para modelar la(s) variable(s) respuesta de la mejor manera posible. Actualmente existen datos que provienen de problemas reales y tales que no pertenecen a un Espacio Euclídeo y por tal razón deben implementarse metodologías para datos con características especiales. Existen dos líneas en particular para abordar éste problema: la primera es la geometría diferencial, que permite construir una variedad que transforma los datos y los transporta a un espacio Euclídeo donde se hace la regresión múltiple requerida y posteriormente transporta los datos nuevamente sobre el espacio no Euclídeo donde se hacen las respectivas interpretaciones con los resultados obtenidos. La segunda línea es la línea del embebimiento que permite incrustar el conjunto que no es un espacio Euclídeo en otro que si es espacio Euclídeo, mediante la construcción de un conjunto cociente que resulta de una relación de equivalencia entre los elementos del conjunto inicial. En este trabajo se implementa la metodología de regresión PLS y se aplica a un tipo de datos variedad valuados, en particular datos relacionados con imágenes y se realiza la evaluación de dicha metodología usando criterios apropiados mediante la comparación con otras metodologías clásicas para datos Euclídeos, los cuales se tratarán de implementar al tipo de datos utilizado. La metodología de regresión PLS se compara con metodologías tales como regresión por componentes principales PCR, análisis y correlación canónico, regresión de Ridge y regresión Lasso. Para dicho propósito se implementa la metodología PLS en R utilizando datos simulados y datos reales, si es posible. Por otro lado, a manera de trabajo futuro, se extiende la metodología de regresión PLS al caso donde tanto las variables explicativas como las variables respuesta y los coeficientes de regresión son del tipo intervalo. De ésta manera se propone una metodología de regresión que resuelve tres problemas que se presentan con los datos de tipo real: en primer lugar problemas de multicolinealidad tanto en las variables explicativas como en las variables respuesta, en segundo lugar problemas cuando los datos no pertenecen a un Espacio Euclídeo y por último problemas cuando la incertidumbre en los datos se representa por medio de intervalos. De ésta manera este trabajo presenta dos enfoques diferentes: el primer enfoque desde la línea de las variedades Riemannianas, en particular sobre el conjunto de matrices definidas positivas y el segundo enfoque desde la línea del embebimiento, en particular sobre los conjuntos de multi-intervalos y multi-matrices.Abstract: Partial least squares regression (PLS) is a method of relaiont of variables introduced by Wold (1972, 1975, 1985), Wold (1972), Wold (1985) and later extended to the field of chemometrics by his brother Wold Et al. (1984), Wold (2001). Regression generally handled controllable variables or measurable variables easily to predict the behavior of other variables. The ordinary multiple linear regression is usual when the explanatory variables are few, when there aren't problems of multicollinearity and when there is a clear relationship between the variables. If any of these three conditions fails then ordinary linear regression is not effective. Furthermore, multiple linear regression uses many explanatory variables, but when the number of variables is too large can create a model that fit the data very well, but fails in predicting new data. In these cases, where there are many explanatory variables, there may be few unobservable latent variables that re_ect the greater variability in the response variable. The overall objective of the PLS regression is extract these latent variables, collecting the greatest variation of the explanatory variables so that they serve to model the response variable in the best way possible. Actually there are data come from real problems such non-Euclidean space and thus must be implemented methodologies for data with special characteristics. There are two lines in particular to solve this problem: the first line is differential geometry for building a variety that transforms and transports data to a Euclidean space where the multiple regression is made and then again carries the date on no Euclidean space where the respective performances with the results obtained are made. The second line is the line that allows you to embedding the set, that is not a Euclidean space, on another Euclidean space by building a cocient set resulting from an equivalence relation between the elements of the initial set. In this work the regression methodology PLS is implemented and these methods are applied to a data type valued variety, including data related to images and evaluation of this methodology is performed using appropriate evaluation criteria by comparing with other classical Euclidean methodologies for data, which seek to implement the type Data used. Methodology PLS regression compared to methodologies such as principal component regression PCA, canonical correlation analysis and Regression or Ridge. PLS methodology is implemented in R to the type of data used in the work to make such comparisons using simulated data and actual data, if possible. Furthermore, the methodology PLS regression to the case where both the explanatory variables as the response variables and the regression coeficients are of the type interval extends. In this way a regression methodology solves three problems encountered with actual data type is proposed: first multicollinearity in explanatory and response variables, second real data does not belong to a Euclidean space and finally, problems when uncertainty in the data is represented by intervals. Thus, this work presents two di_erent approaches: the first approach from the line of Riemannian manifolds, in particular on the set of positive de finite matrices and the second approach from the line of embedding, in particular on the sets of intervals and multi multimatrices.Maestríaapplication/pdfspaUniversidad Nacional de Colombia Sede Medellín Facultad de Ciencias Escuela de EstadísticaEscuela de EstadísticaGaviria Peña, Carlos Alberto (2016) Regresión por mínimos cuadrados parciales PLS Aplicada a datos variedad valuados. Maestría thesis, Universidad Nacional de Colombia - Sede Medellín.51 Matemáticas / MathematicsMínimos cuadrados Parciales PLSComponentes Principales PCRRegresión de ridge y lassoAnálisis de Correlación Canónica CCAVariedadesDatos de imágenesRegresión PLS intervalo-valuadaPrincipal Components PCRPartial Least Square PLSManifoldsImage dataPLS Regression interval-valuedRegresión por mínimos cuadrados parciales PLS Aplicada a datos variedad valuadosTrabajo de grado - Maestríainfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/acceptedVersionTexthttp://purl.org/redcol/resource_type/TMORIGINAL8105560.2016.pdfTesis de Maestría en Ciencias - Estadísticaapplication/pdf1785999https://repositorio.unal.edu.co/bitstream/unal/57110/1/8105560.2016.pdf092a36266db54a7875bb6a7b02828787MD51THUMBNAIL8105560.2016.pdf.jpg8105560.2016.pdf.jpgGenerated Thumbnailimage/jpeg4153https://repositorio.unal.edu.co/bitstream/unal/57110/2/8105560.2016.pdf.jpgd8567812717c84bfb84f82e5597509bdMD52unal/57110oai:repositorio.unal.edu.co:unal/571102024-03-26 23:07:52.298Repositorio Institucional Universidad Nacional de Colombiarepositorio_nal@unal.edu.co |