Implementación de algoritmos de aprendizaje supervisado en la búsqueda de estrellas variables

Este trabajo pretende realizar la implementación de métodos de aprendizaje supervisado en la clasificación de estrellas variables en el disco y bulbo de la Vía Láctea usando las series de tiempo en banda I de los catálogos ASAS II y OGLE II. La clasificación se hizo en las siguientes clases: Cefeida...

Full description

Autores:
González Aguilera, Juan Pablo
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
2019
Institución:
Universidad de los Andes
Repositorio:
Séneca: repositorio Uniandes
Idioma:
spa
OAI Identifier:
oai:repositorio.uniandes.edu.co:1992/45156
Acceso en línea:
http://hdl.handle.net/1992/45156
Palabra clave:
Estrellas variables
Aprendizaje automático (Inteligencia artificial)
Análisis del vecino más cercano (Estadística)
Astrofísica
Vía láctea
Física
Rights
openAccess
License
http://creativecommons.org/licenses/by-nc-sa/4.0/
Description
Summary:Este trabajo pretende realizar la implementación de métodos de aprendizaje supervisado en la clasificación de estrellas variables en el disco y bulbo de la Vía Láctea usando las series de tiempo en banda I de los catálogos ASAS II y OGLE II. La clasificación se hizo en las siguientes clases: Cefeidas, RR Lyrae, candidatas a Be, binarias eclipsantes y variables de largo periodo. Se usaron los siguientes métodos en RStudio: k-vecinos más cercanos, máquinas de soporte vectorial, árboles de clasificación y bosques aleatorios. Se usaron los datos clasificados de OGLE IV y una muestra de estrellas Be de la Gran Nube de Magallanes para entrenar los algoritmos con un conjunto de cinco estadísticos robustos para reducir el costo computacional de eliminación de datos atípicos. Los estadísticos utilizados son: desviación mediana absoluta como estimador de escala, sesgo octil como estimador de sesgo, peso octil izquierdo y derecho como estimadores de peso de colas y valor Abbe modificado como estimador de suavidad. Un acercamiento preliminar de la clasificación mostró una alta confusión entre Cefeidas y RR Lyrae, por lo que se decidió definir una súper-clase que las contenía a las dos. Sin embargo, generar un muestreo preliminar con la súper-clase definida es de gran utilidad como una preselección para luego calcular los periodos a una menor cantidad de estrellas debido a que el cálculo de periodos tiene un costo computacional mucho más alto. El método de clasificación con mejor desempeño individual fue bosques aleatorios, con un mayor número de aciertos sobre la muestra de entrenamiento que los demás. Se implementó este método de manera binaria por cada clase para los catálogos de ASAS II y OGLE II.