Nonlinear dimensionality reduction frameworks to support machine learning systems

En este trabajo se presentan algunos esquemas de reducción de dimensión no lineal (RDNL) basados en aprendizaje por variedades. En este sentido, se pretende identificar adecuadamente la información relevante del fenómeno en estudio a partir de datos de alta dimensión, con el fin de mejorar y facilit...

Full description

Autores:
Álvarez Meza, Andrés Marino
Tipo de recurso:
Fecha de publicación:
2011
Institución:
Universidad Nacional de Colombia
Repositorio:
Universidad Nacional de Colombia
Idioma:
spa
OAI Identifier:
oai:repositorio.unal.edu.co:unal/8998
Acceso en línea:
https://repositorio.unal.edu.co/handle/unal/8998
http://bdigital.unal.edu.co/5740/
Palabra clave:
0 Generalidades / Computer science, information and general works
51 Matemáticas / Mathematics
Reducción de dimensión no lineal, Aprendizaje de máquina, Aprendizaje por variedades, Visualización de datos, Análisis discriminante, Síntesis de datos, Optimización de parámetros, Nonlinear dimensionality reduction, Machine learning, Manifold learning, Data visualization, Discriminant analysis, Data synthesis, Parameter optimization.
Rights
openAccess
License
Atribución-NoComercial 4.0 Internacional
Description
Summary:En este trabajo se presentan algunos esquemas de reducción de dimensión no lineal (RDNL) basados en aprendizaje por variedades. En este sentido, se pretende identificar adecuadamente la información relevante del fenómeno en estudio a partir de datos de alta dimensión, con el fin de mejorar y facilitar el desempeño de aplicaciones relacionadas con aprendizaje de máquina, tales como: visualización, regresión, clasificación y síntesis de datos. De este modo, se presenta una nueva metodología basada en RDNL para el modelado de estructuras subyacentes de datos. Para ello, las muestras de entrada son analizadas en espacios de baja dimensión calculados a partir de RDNL, con el fin de identificar las características relevantes que rigen el proceso de estudio. Posteriormente, la geometría intrínseca de los datos es aprendida por medio de un algoritmo de interpolación. El esquema propuesto permite inferir muestras desconocidas en problemas de síntesis de datos, garantizando un funcionamiento estable, incluso ante condiciones de alta variabilidad en las características del espacio deentrada. Asimismo, se propone un esquema de RDNL que permite incorporar conocimiento a priori sobre los datos, a fin de calcular inmersiones que desdoblen correctamente la estructura subyacente del fenómeno estudiado. El objetivo del esquema propuesto es utilizar representaciones de núcleo múltiple (RNM) en problemas de optimización de RDNL. En este sentido, dicho esquema es utilizado para identificar tanto las relaciones espaciales y temporales entre imágenes de videos. Así, es posible revelar la dinámica espacial y temporal de videos relacionados con movimientos cíclicos. Del mismo modo, se propone un método de RDNL supervisado utilizando RNM para incorporar la información de etiqueta de clase de las observaciones. Por lo tanto, el algoritmo de RDNL supervisado propuesto permite conservar la estructura local de los datos y maximiza el margen de separabilidad entre clases en problemas de clasificación. Además, se desarrollan algunas estrategias para seleccionar automáticamente los parámetros libres de los esquemas propuestos. En general, los métodos propuestos de RDNL son eficientes y competitivos para apoyar procedimientos de aprendizaje de máquina / Abstract: In this work, some nonlinear dimensionality reduction (NLDR) frameworks based on manifold learning are proposed. Our main goal is to properly reveal the most relevant information from high dimensional data for enhancing the performance of machine learning applications, such as: data visualization, regression, synthesis, and classification. In this regard, we present a new methodology for modeling the underlying data structure based on NLDR. We analyze the samples in a low dimensional space computed by means of NLDR to identify the most relevant features that govern the studied process, and we learn the intrinsic geometry of the data by means of an interpolation algorithm. Our approach allows to infer unknown samples in synthesis problems ensuring a stable performance, even against feature variability conditions of the original input space. Furthermore, we propose a NLDR framework that allows to incorporate prior knowledge about the data, in order to obtain low dimensional spaces that properly unfold the underlying structure of the manifold. We aim to take advantage of a Multiple Kernel Representation (MKR) scheme in a NLDR optimization problem. In this sense, we test our proposal for analyzing videos based on a MKR of the input data, improving a NLDR scheme to compute and learn both spatial and temporal relationships among frames. The presented approach is tested for revealing the spatial and temporal dynamics of real-world videos related to cyclic motions. Similarly, we propose a supervised NLDR method based on MKR to incorporate class label information of the inputs, while the local structure topology of the data is preserved during the embedding process. Hence, our approach aims to conserve both the local data structure and the margin of reparability among classes in classification problems. Furthermore, we present some strategies to fix automatically the free parameters of the proposed frameworks. Overall, proposed NLDR frameworks are efficient and competitive to support machine learning procedures.