Regresión por mínimos cuadrados parciales PLS Aplicada a datos variedad valuados

La regresión por mínimos cuadrados parciales (PLS) es una técnica de relación de variables introducida por Wold (1972, 1975, 1985), Wold (1972), Wold (1985) y extendida posteriormente al campo de la quimiometría por su hermano Wold Et al. (1984), Wold (2001). La regresión lineal múltiple ordinaria g...

Full description

Autores:
Gaviria Peña, Carlos Alberto
Tipo de recurso:
Fecha de publicación:
2016
Institución:
Universidad Nacional de Colombia
Repositorio:
Universidad Nacional de Colombia
Idioma:
spa
OAI Identifier:
oai:repositorio.unal.edu.co:unal/57110
Acceso en línea:
https://repositorio.unal.edu.co/handle/unal/57110
http://bdigital.unal.edu.co/53233/
Palabra clave:
51 Matemáticas / Mathematics
Mínimos cuadrados Parciales PLS
Componentes Principales PCR
Regresión de ridge y lasso
Análisis de Correlación Canónica CCA
Variedades
Datos de imágenes
Regresión PLS intervalo-valuada
Principal Components PCR
Partial Least Square PLS
Manifolds
Image data
PLS Regression interval-valued
Rights
openAccess
License
Atribución-NoComercial 4.0 Internacional
id UNACIONAL2_1fc78b58e4aff4209b97afba3a464786
oai_identifier_str oai:repositorio.unal.edu.co:unal/57110
network_acronym_str UNACIONAL2
network_name_str Universidad Nacional de Colombia
repository_id_str
dc.title.spa.fl_str_mv Regresión por mínimos cuadrados parciales PLS Aplicada a datos variedad valuados
title Regresión por mínimos cuadrados parciales PLS Aplicada a datos variedad valuados
spellingShingle Regresión por mínimos cuadrados parciales PLS Aplicada a datos variedad valuados
51 Matemáticas / Mathematics
Mínimos cuadrados Parciales PLS
Componentes Principales PCR
Regresión de ridge y lasso
Análisis de Correlación Canónica CCA
Variedades
Datos de imágenes
Regresión PLS intervalo-valuada
Principal Components PCR
Partial Least Square PLS
Manifolds
Image data
PLS Regression interval-valued
title_short Regresión por mínimos cuadrados parciales PLS Aplicada a datos variedad valuados
title_full Regresión por mínimos cuadrados parciales PLS Aplicada a datos variedad valuados
title_fullStr Regresión por mínimos cuadrados parciales PLS Aplicada a datos variedad valuados
title_full_unstemmed Regresión por mínimos cuadrados parciales PLS Aplicada a datos variedad valuados
title_sort Regresión por mínimos cuadrados parciales PLS Aplicada a datos variedad valuados
dc.creator.fl_str_mv Gaviria Peña, Carlos Alberto
dc.contributor.author.spa.fl_str_mv Gaviria Peña, Carlos Alberto
dc.contributor.spa.fl_str_mv Pérez Agámez, Raúl Alberto
dc.subject.ddc.spa.fl_str_mv 51 Matemáticas / Mathematics
topic 51 Matemáticas / Mathematics
Mínimos cuadrados Parciales PLS
Componentes Principales PCR
Regresión de ridge y lasso
Análisis de Correlación Canónica CCA
Variedades
Datos de imágenes
Regresión PLS intervalo-valuada
Principal Components PCR
Partial Least Square PLS
Manifolds
Image data
PLS Regression interval-valued
dc.subject.proposal.spa.fl_str_mv Mínimos cuadrados Parciales PLS
Componentes Principales PCR
Regresión de ridge y lasso
Análisis de Correlación Canónica CCA
Variedades
Datos de imágenes
Regresión PLS intervalo-valuada
Principal Components PCR
Partial Least Square PLS
Manifolds
Image data
PLS Regression interval-valued
description La regresión por mínimos cuadrados parciales (PLS) es una técnica de relación de variables introducida por Wold (1972, 1975, 1985), Wold (1972), Wold (1985) y extendida posteriormente al campo de la quimiometría por su hermano Wold Et al. (1984), Wold (2001). La regresión lineal múltiple ordinaria generalmente manipula variables controlables o fácilmente medibles para predecir el comportamiento de otras variables y es usual cuando las variables explicativas son pocas, cuando no existen problemas de multicolinealidad y cuando existe una relación clara entre las variables. Si alguna de estas tres condiciones falla entonces la regresión lineal múltiple ordinaria no es eficaz. Por otro lado, la regresión lineal múltiple se puede utilizar con muchas variables explicativas, pero cuando el número de variables es demasiado grande se puede generar un modelo que ajuste muy bien los datos, pero que falla en la predicción de nuevos datos. En estos casos, donde existen muchas variables explicativas, puede que existan pocas variables no observables que recojan la mayor variabilidad de la(s) variable(s) respuesta. El objetivo general de la regresión PLS es extraer estas variables latentes, recogiendo la mayor variación de las variables explicativas de manera que sirvan para modelar la(s) variable(s) respuesta de la mejor manera posible. Actualmente existen datos que provienen de problemas reales y tales que no pertenecen a un Espacio Euclídeo y por tal razón deben implementarse metodologías para datos con características especiales. Existen dos líneas en particular para abordar éste problema: la primera es la geometría diferencial, que permite construir una variedad que transforma los datos y los transporta a un espacio Euclídeo donde se hace la regresión múltiple requerida y posteriormente transporta los datos nuevamente sobre el espacio no Euclídeo donde se hacen las respectivas interpretaciones con los resultados obtenidos. La segunda línea es la línea del embebimiento que permite incrustar el conjunto que no es un espacio Euclídeo en otro que si es espacio Euclídeo, mediante la construcción de un conjunto cociente que resulta de una relación de equivalencia entre los elementos del conjunto inicial. En este trabajo se implementa la metodología de regresión PLS y se aplica a un tipo de datos variedad valuados, en particular datos relacionados con imágenes y se realiza la evaluación de dicha metodología usando criterios apropiados mediante la comparación con otras metodologías clásicas para datos Euclídeos, los cuales se tratarán de implementar al tipo de datos utilizado. La metodología de regresión PLS se compara con metodologías tales como regresión por componentes principales PCR, análisis y correlación canónico, regresión de Ridge y regresión Lasso. Para dicho propósito se implementa la metodología PLS en R utilizando datos simulados y datos reales, si es posible. Por otro lado, a manera de trabajo futuro, se extiende la metodología de regresión PLS al caso donde tanto las variables explicativas como las variables respuesta y los coeficientes de regresión son del tipo intervalo. De ésta manera se propone una metodología de regresión que resuelve tres problemas que se presentan con los datos de tipo real: en primer lugar problemas de multicolinealidad tanto en las variables explicativas como en las variables respuesta, en segundo lugar problemas cuando los datos no pertenecen a un Espacio Euclídeo y por último problemas cuando la incertidumbre en los datos se representa por medio de intervalos. De ésta manera este trabajo presenta dos enfoques diferentes: el primer enfoque desde la línea de las variedades Riemannianas, en particular sobre el conjunto de matrices definidas positivas y el segundo enfoque desde la línea del embebimiento, en particular sobre los conjuntos de multi-intervalos y multi-matrices.
publishDate 2016
dc.date.issued.spa.fl_str_mv 2016-08-03
dc.date.accessioned.spa.fl_str_mv 2019-07-02T12:26:12Z
dc.date.available.spa.fl_str_mv 2019-07-02T12:26:12Z
dc.type.spa.fl_str_mv Trabajo de grado - Maestría
dc.type.driver.spa.fl_str_mv info:eu-repo/semantics/masterThesis
dc.type.version.spa.fl_str_mv info:eu-repo/semantics/acceptedVersion
dc.type.content.spa.fl_str_mv Text
dc.type.redcol.spa.fl_str_mv http://purl.org/redcol/resource_type/TM
status_str acceptedVersion
dc.identifier.uri.none.fl_str_mv https://repositorio.unal.edu.co/handle/unal/57110
dc.identifier.eprints.spa.fl_str_mv http://bdigital.unal.edu.co/53233/
url https://repositorio.unal.edu.co/handle/unal/57110
http://bdigital.unal.edu.co/53233/
dc.language.iso.spa.fl_str_mv spa
language spa
dc.relation.ispartof.spa.fl_str_mv Universidad Nacional de Colombia Sede Medellín Facultad de Ciencias Escuela de Estadística
Escuela de Estadística
dc.relation.references.spa.fl_str_mv Gaviria Peña, Carlos Alberto (2016) Regresión por mínimos cuadrados parciales PLS Aplicada a datos variedad valuados. Maestría thesis, Universidad Nacional de Colombia - Sede Medellín.
dc.rights.spa.fl_str_mv Derechos reservados - Universidad Nacional de Colombia
dc.rights.coar.fl_str_mv http://purl.org/coar/access_right/c_abf2
dc.rights.license.spa.fl_str_mv Atribución-NoComercial 4.0 Internacional
dc.rights.uri.spa.fl_str_mv http://creativecommons.org/licenses/by-nc/4.0/
dc.rights.accessrights.spa.fl_str_mv info:eu-repo/semantics/openAccess
rights_invalid_str_mv Atribución-NoComercial 4.0 Internacional
Derechos reservados - Universidad Nacional de Colombia
http://creativecommons.org/licenses/by-nc/4.0/
http://purl.org/coar/access_right/c_abf2
eu_rights_str_mv openAccess
dc.format.mimetype.spa.fl_str_mv application/pdf
institution Universidad Nacional de Colombia
bitstream.url.fl_str_mv https://repositorio.unal.edu.co/bitstream/unal/57110/1/8105560.2016.pdf
https://repositorio.unal.edu.co/bitstream/unal/57110/2/8105560.2016.pdf.jpg
bitstream.checksum.fl_str_mv 092a36266db54a7875bb6a7b02828787
d8567812717c84bfb84f82e5597509bd
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositorio Institucional Universidad Nacional de Colombia
repository.mail.fl_str_mv repositorio_nal@unal.edu.co
_version_ 1814089312551043072
spelling Atribución-NoComercial 4.0 InternacionalDerechos reservados - Universidad Nacional de Colombiahttp://creativecommons.org/licenses/by-nc/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Pérez Agámez, Raúl AlbertoGaviria Peña, Carlos Alberto2d2fdf65-d448-4100-a0f8-7478fb541f0a3002019-07-02T12:26:12Z2019-07-02T12:26:12Z2016-08-03https://repositorio.unal.edu.co/handle/unal/57110http://bdigital.unal.edu.co/53233/La regresión por mínimos cuadrados parciales (PLS) es una técnica de relación de variables introducida por Wold (1972, 1975, 1985), Wold (1972), Wold (1985) y extendida posteriormente al campo de la quimiometría por su hermano Wold Et al. (1984), Wold (2001). La regresión lineal múltiple ordinaria generalmente manipula variables controlables o fácilmente medibles para predecir el comportamiento de otras variables y es usual cuando las variables explicativas son pocas, cuando no existen problemas de multicolinealidad y cuando existe una relación clara entre las variables. Si alguna de estas tres condiciones falla entonces la regresión lineal múltiple ordinaria no es eficaz. Por otro lado, la regresión lineal múltiple se puede utilizar con muchas variables explicativas, pero cuando el número de variables es demasiado grande se puede generar un modelo que ajuste muy bien los datos, pero que falla en la predicción de nuevos datos. En estos casos, donde existen muchas variables explicativas, puede que existan pocas variables no observables que recojan la mayor variabilidad de la(s) variable(s) respuesta. El objetivo general de la regresión PLS es extraer estas variables latentes, recogiendo la mayor variación de las variables explicativas de manera que sirvan para modelar la(s) variable(s) respuesta de la mejor manera posible. Actualmente existen datos que provienen de problemas reales y tales que no pertenecen a un Espacio Euclídeo y por tal razón deben implementarse metodologías para datos con características especiales. Existen dos líneas en particular para abordar éste problema: la primera es la geometría diferencial, que permite construir una variedad que transforma los datos y los transporta a un espacio Euclídeo donde se hace la regresión múltiple requerida y posteriormente transporta los datos nuevamente sobre el espacio no Euclídeo donde se hacen las respectivas interpretaciones con los resultados obtenidos. La segunda línea es la línea del embebimiento que permite incrustar el conjunto que no es un espacio Euclídeo en otro que si es espacio Euclídeo, mediante la construcción de un conjunto cociente que resulta de una relación de equivalencia entre los elementos del conjunto inicial. En este trabajo se implementa la metodología de regresión PLS y se aplica a un tipo de datos variedad valuados, en particular datos relacionados con imágenes y se realiza la evaluación de dicha metodología usando criterios apropiados mediante la comparación con otras metodologías clásicas para datos Euclídeos, los cuales se tratarán de implementar al tipo de datos utilizado. La metodología de regresión PLS se compara con metodologías tales como regresión por componentes principales PCR, análisis y correlación canónico, regresión de Ridge y regresión Lasso. Para dicho propósito se implementa la metodología PLS en R utilizando datos simulados y datos reales, si es posible. Por otro lado, a manera de trabajo futuro, se extiende la metodología de regresión PLS al caso donde tanto las variables explicativas como las variables respuesta y los coeficientes de regresión son del tipo intervalo. De ésta manera se propone una metodología de regresión que resuelve tres problemas que se presentan con los datos de tipo real: en primer lugar problemas de multicolinealidad tanto en las variables explicativas como en las variables respuesta, en segundo lugar problemas cuando los datos no pertenecen a un Espacio Euclídeo y por último problemas cuando la incertidumbre en los datos se representa por medio de intervalos. De ésta manera este trabajo presenta dos enfoques diferentes: el primer enfoque desde la línea de las variedades Riemannianas, en particular sobre el conjunto de matrices definidas positivas y el segundo enfoque desde la línea del embebimiento, en particular sobre los conjuntos de multi-intervalos y multi-matrices.Abstract: Partial least squares regression (PLS) is a method of relaiont of variables introduced by Wold (1972, 1975, 1985), Wold (1972), Wold (1985) and later extended to the field of chemometrics by his brother Wold Et al. (1984), Wold (2001). Regression generally handled controllable variables or measurable variables easily to predict the behavior of other variables. The ordinary multiple linear regression is usual when the explanatory variables are few, when there aren't problems of multicollinearity and when there is a clear relationship between the variables. If any of these three conditions fails then ordinary linear regression is not effective. Furthermore, multiple linear regression uses many explanatory variables, but when the number of variables is too large can create a model that fit the data very well, but fails in predicting new data. In these cases, where there are many explanatory variables, there may be few unobservable latent variables that re_ect the greater variability in the response variable. The overall objective of the PLS regression is extract these latent variables, collecting the greatest variation of the explanatory variables so that they serve to model the response variable in the best way possible. Actually there are data come from real problems such non-Euclidean space and thus must be implemented methodologies for data with special characteristics. There are two lines in particular to solve this problem: the first line is differential geometry for building a variety that transforms and transports data to a Euclidean space where the multiple regression is made and then again carries the date on no Euclidean space where the respective performances with the results obtained are made. The second line is the line that allows you to embedding the set, that is not a Euclidean space, on another Euclidean space by building a cocient set resulting from an equivalence relation between the elements of the initial set. In this work the regression methodology PLS is implemented and these methods are applied to a data type valued variety, including data related to images and evaluation of this methodology is performed using appropriate evaluation criteria by comparing with other classical Euclidean methodologies for data, which seek to implement the type Data used. Methodology PLS regression compared to methodologies such as principal component regression PCA, canonical correlation analysis and Regression or Ridge. PLS methodology is implemented in R to the type of data used in the work to make such comparisons using simulated data and actual data, if possible. Furthermore, the methodology PLS regression to the case where both the explanatory variables as the response variables and the regression coeficients are of the type interval extends. In this way a regression methodology solves three problems encountered with actual data type is proposed: first multicollinearity in explanatory and response variables, second real data does not belong to a Euclidean space and finally, problems when uncertainty in the data is represented by intervals. Thus, this work presents two di_erent approaches: the first approach from the line of Riemannian manifolds, in particular on the set of positive de finite matrices and the second approach from the line of embedding, in particular on the sets of intervals and multi multimatrices.Maestríaapplication/pdfspaUniversidad Nacional de Colombia Sede Medellín Facultad de Ciencias Escuela de EstadísticaEscuela de EstadísticaGaviria Peña, Carlos Alberto (2016) Regresión por mínimos cuadrados parciales PLS Aplicada a datos variedad valuados. Maestría thesis, Universidad Nacional de Colombia - Sede Medellín.51 Matemáticas / MathematicsMínimos cuadrados Parciales PLSComponentes Principales PCRRegresión de ridge y lassoAnálisis de Correlación Canónica CCAVariedadesDatos de imágenesRegresión PLS intervalo-valuadaPrincipal Components PCRPartial Least Square PLSManifoldsImage dataPLS Regression interval-valuedRegresión por mínimos cuadrados parciales PLS Aplicada a datos variedad valuadosTrabajo de grado - Maestríainfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/acceptedVersionTexthttp://purl.org/redcol/resource_type/TMORIGINAL8105560.2016.pdfTesis de Maestría en Ciencias - Estadísticaapplication/pdf1785999https://repositorio.unal.edu.co/bitstream/unal/57110/1/8105560.2016.pdf092a36266db54a7875bb6a7b02828787MD51THUMBNAIL8105560.2016.pdf.jpg8105560.2016.pdf.jpgGenerated Thumbnailimage/jpeg4153https://repositorio.unal.edu.co/bitstream/unal/57110/2/8105560.2016.pdf.jpgd8567812717c84bfb84f82e5597509bdMD52unal/57110oai:repositorio.unal.edu.co:unal/571102024-03-26 23:07:52.298Repositorio Institucional Universidad Nacional de Colombiarepositorio_nal@unal.edu.co