Unsupervised machine learning for the classification of astrophysical X-ray sources
Contexto. El Chandra Source Catalog (CSC), que recoge las fuentes de rayos X detectadas por el Observatorio de Rayos X Chandra a lo largo de su historia, es un terreno fértil para el descubrimiento, ya que muchas de las fuentes que contiene no han sido estudiadas en detalle. En el CSC podríamos enco...
- Autores:
- Tipo de recurso:
- Fecha de publicación:
- 2021
- Institución:
- Universidad del Rosario
- Repositorio:
- Repositorio EdocUR - U. Rosario
- Idioma:
- spa
- OAI Identifier:
- oai:repository.urosario.edu.co:10336/33793
- Acceso en línea:
- https://doi.org/10.48713/10336_33793_
https://repository.urosario.edu.co/handle/10336/33793
- Palabra clave:
- Clustering
GMM
K-means
Chandra Source Catalog
Chandra X-ray Observatory
Clasificación
Agrupación
Aprendizaje automático no supervisado
Astrofísica de alta energía
Rayos X
Probabilidades & matemáticas aplicadas
Classification
Clustering
K-means
GMM
Chandra X-ray Observatory
Chandra Source Catalog
Unsupervised Machine Learning
X-ray
High Energy Astrophysics
- Rights
- License
- Atribución-NoComercial-SinDerivadas 2.5 Colombia
Summary: | Contexto. El Chandra Source Catalog (CSC), que recoge las fuentes de rayos X detectadas por el Observatorio de Rayos X Chandra a lo largo de su historia, es un terreno fértil para el descubrimiento, ya que muchas de las fuentes que contiene no han sido estudiadas en detalle. En el CSC podríamos encontrar varios tipos de fuentes, desde objetos estelares jóvenes (YSO) y sistemas binarios, hasta incluso cuásares muy lejanos (QSO) o galaxias activas con agujeros negros supermasivos en sus núcleos. Entre las fuentes que podrían cambiar el paradigma y que podríamos buscar en los datos de Chandra están las fusiones de objetos compactos, los tránsitos de planetas extrasolares, los eventos de disrupción de mareas, etc. Sin embargo, sólo se ha clasificado una pequeña fracción de las fuentes del CSC. Para llevar a cabo una investigación exhaustiva de las fuentes del CSC, y estar preparados para los próximos grandes estudios de rayos X, necesitamos clasificar tantas fuentes del catálogo como sea posible. Objetivos. Este trabajo propone un enfoque de aprendizaje no supervisado para clasificar el mayor número posible de fuentes del Chandra Source Catalog, explorando primero las ventajas y los límites de utilizar sólo los datos de rayos X disponibles. El aprendizaje no supervisado es especialmente adecuado dada la gran cantidad de detecciones que aún no han sido clasificadas de forma independiente. Agrupando las observaciones de las fuentes por sus similitudes, y asociando después estos grupos con objetos previamente clasificados espectroscópicamente, buscamos proponer una nueva metodología que pueda proporcionarnos una clasificación probabilística para una numerosa cantidad de fuentes. Métodos. Empleamos métodos de aprendizaje no supervisado, primero K-means, y luego Gaussian Mixtures, aplicados a una lista de propiedades de rayos X, para clasificar probabilísticamente las fuentes de alta energía en el Chandra Source Catalog (CSC). Esto lo conseguimos asociando clusters específicos con aquellos objetos del CSC que tienen una clasificación en la base de datos SIMBAD, y luego asignando clases probabilísticas por asociación a los objetos no clasificados en cada cluster con un algoritmo basado en la distancia de Mahalanobis. Resultados. Somos capaces de identificar con éxito clusters de objetos previamente identificados que probablemente pertenezcan a la misma clase, e incluso dentro de los grupos que fueron identificados teniendo predominantemente un tipo de fuente, como "galaxias", "QSO", "YSO", encontramos subclases relacionadas con su variabilidad y propiedades espectrales únicas. El resultado de este ejercicio es una clasificación probabilística robusta (es decir, una posterior sobre las clases) para 10090 de las fuentes del CSC. Las tablas correspondientes a cada cluster y el código respectivo están disponibles en https://github.com/BogoCoder/astrox. Conclusiones. Hemos desarrollado una metodología para proporcionar una asignación probabilística de clases a numerosas fuentes de rayos X del Chandra Source Catalog. A través de este proceso hemos visto que es posible construir un pipeline basado en aprendizaje automático no supervisado para esta tarea. Hemos visto que nuestro enfoque funciona bien para determinados tipos de fuentes generales, como un YSO, o fuentes extragalácticas. En otros casos, tenemos ambigüedad en el número de clases presentes en un cluster particular, teniendo clases predominantes muy diferentes dentro de ellos. Esta ambigüedad podría resolverse añadiendo datos de otro régimen de longitudes de onda, como datos ópticos del SDSS (Sloan Digital Survey Summary). Este análisis está previsto para un futuro trabajo. Esta tesis presenta una primera aproximación al objetivo final de clasificar todas las posibles fuentes CSC que carecen de una clase. |
---|