MLExplore.js : exploring high-dimensional data by interacting and interpreting t-SNE and K-Means

In Exploratory Data Analysis (EDA), Machine Learning (ML) is an alternative for under-standing larger and high-dimensional data. Dimensionality Reduction (DR) algorithms suchas t-SNE produce two or three dimensional embeddings looking to preserve local and globalstructure of data. By the other hand,...

Full description

Autores:
Peña Lozano, Fabián Camilo
Tipo de recurso:
Fecha de publicación:
2019
Institución:
Universidad de los Andes
Repositorio:
Séneca: repositorio Uniandes
Idioma:
eng
OAI Identifier:
oai:repositorio.uniandes.edu.co:1992/44047
Acceso en línea:
http://hdl.handle.net/1992/44047
Palabra clave:
Visualización de la información - Investigaciones - Estudio de casos
Aprendizaje automático (Inteligencia artificial) - Investigaciones - Estudio de casos
Analítica visual - Investigaciones - Estudio de casos
Ingeniería
Rights
openAccess
License
http://creativecommons.org/licenses/by-nc-nd/4.0/
id UNIANDES2_f789a9524ad0879c9f7d7600cecddfd4
oai_identifier_str oai:repositorio.uniandes.edu.co:1992/44047
network_acronym_str UNIANDES2
network_name_str Séneca: repositorio Uniandes
repository_id_str
dc.title.es_CO.fl_str_mv MLExplore.js : exploring high-dimensional data by interacting and interpreting t-SNE and K-Means
title MLExplore.js : exploring high-dimensional data by interacting and interpreting t-SNE and K-Means
spellingShingle MLExplore.js : exploring high-dimensional data by interacting and interpreting t-SNE and K-Means
Visualización de la información - Investigaciones - Estudio de casos
Aprendizaje automático (Inteligencia artificial) - Investigaciones - Estudio de casos
Analítica visual - Investigaciones - Estudio de casos
Ingeniería
title_short MLExplore.js : exploring high-dimensional data by interacting and interpreting t-SNE and K-Means
title_full MLExplore.js : exploring high-dimensional data by interacting and interpreting t-SNE and K-Means
title_fullStr MLExplore.js : exploring high-dimensional data by interacting and interpreting t-SNE and K-Means
title_full_unstemmed MLExplore.js : exploring high-dimensional data by interacting and interpreting t-SNE and K-Means
title_sort MLExplore.js : exploring high-dimensional data by interacting and interpreting t-SNE and K-Means
dc.creator.fl_str_mv Peña Lozano, Fabián Camilo
dc.contributor.advisor.none.fl_str_mv Hernández Peñaloza, José Tiberio
Guerra Gómez, John Alexis
dc.contributor.author.none.fl_str_mv Peña Lozano, Fabián Camilo
dc.contributor.jury.none.fl_str_mv Núñez Castro, Haydemar María
Sarmiento Dueñas, Olga Lucía
dc.subject.armarc.es_CO.fl_str_mv Visualización de la información - Investigaciones - Estudio de casos
Aprendizaje automático (Inteligencia artificial) - Investigaciones - Estudio de casos
Analítica visual - Investigaciones - Estudio de casos
topic Visualización de la información - Investigaciones - Estudio de casos
Aprendizaje automático (Inteligencia artificial) - Investigaciones - Estudio de casos
Analítica visual - Investigaciones - Estudio de casos
Ingeniería
dc.subject.themes.none.fl_str_mv Ingeniería
description In Exploratory Data Analysis (EDA), Machine Learning (ML) is an alternative for under-standing larger and high-dimensional data. Dimensionality Reduction (DR) algorithms suchas t-SNE produce two or three dimensional embeddings looking to preserve local and globalstructure of data. By the other hand, Clustering algorithms such as K-Means seek to achievea similar goal by producing a cluster membership for each data instance. In general terms,when using these kind of algorithms, non-expert ML users can derive wrong conclusions ifan appropriate set of hyper-parameters for fitting the algorithm is not selected. Similarly,groups of attributes and data instances could represent, for instance, high-levels of noise inthe data significantly affecting the embedding and clustering formation. To address this, ML-Explore.js, a web-based tool for exploring high-dimensional tabular data that implements thet-SNE and K-Means algorithms running in the browser is presented. Because this tool is tar-geted to domain-expert users, some concepts and recommendations for designing user-centricML systems are derived from the Interactive ML and Interpretable ML sub-fields. Like someother ML-based EDA tools, MLExplore.js allows users to explore the hyper-parameter spacewhile interactively seeing how these changes affect the model results. In addition, the abilityto evidence model changes when user perform attribute selection and data navigation is alsoincluded. This enables domain-expert users to perform cluster-oriented DR task sequencessuch as verify clusters, name clusters and match cluster and classes. To demonstrate its usage,one case study of exploring a real-world dataset is presented.
publishDate 2019
dc.date.issued.es_CO.fl_str_mv 2019
dc.date.accessioned.none.fl_str_mv 2020-09-03T14:31:03Z
dc.date.available.none.fl_str_mv 2020-09-03T14:31:03Z
dc.type.spa.fl_str_mv Trabajo de grado - Maestría
dc.type.coarversion.fl_str_mv http://purl.org/coar/version/c_970fb48d4fbd8a85
dc.type.driver.spa.fl_str_mv info:eu-repo/semantics/masterThesis
dc.type.content.spa.fl_str_mv Text
dc.type.redcol.spa.fl_str_mv http://purl.org/redcol/resource_type/TM
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/1992/44047
dc.identifier.pdf.none.fl_str_mv u827366.pdf
dc.identifier.instname.spa.fl_str_mv instname:Universidad de los Andes
dc.identifier.reponame.spa.fl_str_mv reponame:Repositorio Institucional Séneca
dc.identifier.repourl.spa.fl_str_mv repourl:https://repositorio.uniandes.edu.co/
url http://hdl.handle.net/1992/44047
identifier_str_mv u827366.pdf
instname:Universidad de los Andes
reponame:Repositorio Institucional Séneca
repourl:https://repositorio.uniandes.edu.co/
dc.language.iso.es_CO.fl_str_mv eng
language eng
dc.rights.uri.*.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/4.0/
dc.rights.accessrights.spa.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.coar.spa.fl_str_mv http://purl.org/coar/access_right/c_abf2
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-nd/4.0/
http://purl.org/coar/access_right/c_abf2
eu_rights_str_mv openAccess
dc.format.extent.es_CO.fl_str_mv 44 hojas
dc.format.mimetype.es_CO.fl_str_mv application/pdf
dc.publisher.es_CO.fl_str_mv Uniandes
dc.publisher.program.es_CO.fl_str_mv Maestría en Ingeniería de Información
dc.publisher.faculty.es_CO.fl_str_mv Facultad de Ingeniería
dc.publisher.department.es_CO.fl_str_mv Departamento de Ingeniería de Sistemas y Computación
dc.source.es_CO.fl_str_mv instname:Universidad de los Andes
reponame:Repositorio Institucional Séneca
instname_str Universidad de los Andes
institution Universidad de los Andes
reponame_str Repositorio Institucional Séneca
collection Repositorio Institucional Séneca
bitstream.url.fl_str_mv https://repositorio.uniandes.edu.co/bitstreams/7df6616c-f4af-441f-9462-377d8baccbff/download
https://repositorio.uniandes.edu.co/bitstreams/e066d50a-c074-41af-b886-ed019aa2057e/download
https://repositorio.uniandes.edu.co/bitstreams/e411eab1-d769-40a8-96b8-6b821b0bdebf/download
bitstream.checksum.fl_str_mv 6d5dfb3ad73c700e6b9d89caa56b16bf
4e710ce417e28144e9412e23730592a3
854abebe42f7d7d88fe03b4f1b02ebb0
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositorio institucional Séneca
repository.mail.fl_str_mv adminrepositorio@uniandes.edu.co
_version_ 1812133930398121984
spelling Al consultar y hacer uso de este recurso, está aceptando las condiciones de uso establecidas por los autores.http://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Hernández Peñaloza, José Tiberiovirtual::8377-1Guerra Gómez, John Alexisvirtual::8378-1Peña Lozano, Fabián Camilo53347736-507a-4d4d-8d45-9d407950bd4f500Núñez Castro, Haydemar MaríaSarmiento Dueñas, Olga Lucía2020-09-03T14:31:03Z2020-09-03T14:31:03Z2019http://hdl.handle.net/1992/44047u827366.pdfinstname:Universidad de los Andesreponame:Repositorio Institucional Sénecarepourl:https://repositorio.uniandes.edu.co/In Exploratory Data Analysis (EDA), Machine Learning (ML) is an alternative for under-standing larger and high-dimensional data. Dimensionality Reduction (DR) algorithms suchas t-SNE produce two or three dimensional embeddings looking to preserve local and globalstructure of data. By the other hand, Clustering algorithms such as K-Means seek to achievea similar goal by producing a cluster membership for each data instance. In general terms,when using these kind of algorithms, non-expert ML users can derive wrong conclusions ifan appropriate set of hyper-parameters for fitting the algorithm is not selected. Similarly,groups of attributes and data instances could represent, for instance, high-levels of noise inthe data significantly affecting the embedding and clustering formation. To address this, ML-Explore.js, a web-based tool for exploring high-dimensional tabular data that implements thet-SNE and K-Means algorithms running in the browser is presented. Because this tool is tar-geted to domain-expert users, some concepts and recommendations for designing user-centricML systems are derived from the Interactive ML and Interpretable ML sub-fields. Like someother ML-based EDA tools, MLExplore.js allows users to explore the hyper-parameter spacewhile interactively seeing how these changes affect the model results. In addition, the abilityto evidence model changes when user perform attribute selection and data navigation is alsoincluded. This enables domain-expert users to perform cluster-oriented DR task sequencessuch as verify clusters, name clusters and match cluster and classes. To demonstrate its usage,one case study of exploring a real-world dataset is presented.En Análisis Exploratorio de Datos (EDA), Machine Learning (ML) es una alternativa para entender datasets grandes y de altas dimensiones. Los algoritmos de Reducción de Dimensionalidad (DR) como t-SNE producen dos o tres dimensiones agregadas buscando preservar la estructura local y global de los datos. Por otro lado, algoritmos de Clustering como K-Means buscan un objetivo similar al producir una pertenencia de una instancia a un cluster. En términos generales, cuando se usan este tipo de algoritmos, usuarios no expertos en ML pueden derivar conclusiones erroneas si un conjunto apropiado de hiper parámetros no es seleccionado. Similarmente, grupos de atributos e instancias de datos pueden representar, por ejemplo, altos niveles de ruido en los datos afectando significativamente la formación de las dimensiones agregadas y los clusters. Para direccionar esto, ML-Explore.js, una herramienta web para explorar datos de altas dimensiones mediante los algoritmos de t-SNE y K-Means corriendo el navegador es presentada. Dado que esta herramienta esta diseñada para usuarios que no son expertos en ML, algunos conceptos y recomendaciones para diseñar sistemas de ML centrados en el usuario son derivados del ML Interactivo y el ML Interpretable. Como algunas otras herramientas EDA basadas en ML, MLExplore.js permite al usuario explorar el espacio de hiper parámetros mientras interactivamente ve como esos cambios afectan los resultados del modelo. Adicionalmente, también se incluye la posibilidad de evidenciar cambios en el modelo cuando el usuario realiza selección de atributos y navega sobre los datos. Esto habilita a usuarios expertos en el dominio a realizar secuencias de tareas de DR orientadas a clusters como verificar clusters, nombrar clusters y hacer match de clusters y clases. Para demostrar su uso, un caso de estudio de exploración de un dataset real es presentado.Magíster en Ingeniería de InformaciónMaestría44 hojasapplication/pdfengUniandesMaestría en Ingeniería de InformaciónFacultad de IngenieríaDepartamento de Ingeniería de Sistemas y Computacióninstname:Universidad de los Andesreponame:Repositorio Institucional SénecaMLExplore.js : exploring high-dimensional data by interacting and interpreting t-SNE and K-MeansTrabajo de grado - Maestríainfo:eu-repo/semantics/masterThesishttp://purl.org/coar/version/c_970fb48d4fbd8a85Texthttp://purl.org/redcol/resource_type/TMVisualización de la información - Investigaciones - Estudio de casosAprendizaje automático (Inteligencia artificial) - Investigaciones - Estudio de casosAnalítica visual - Investigaciones - Estudio de casosIngenieríaPublicationhttps://scholar.google.es/citations?user=-gUUc7oAAAAJvirtual::8377-10000-0002-5035-4363virtual::8377-1https://scienti.minciencias.gov.co/cvlac/visualizador/generarCurriculoCv.do?cod_rh=0000246689virtual::8377-1ad318216-13a5-4de4-9d7f-e3ab42397d84virtual::8377-126b87ca4-c283-4bc1-a992-d67be00dbf65virtual::8378-1ad318216-13a5-4de4-9d7f-e3ab42397d84virtual::8377-126b87ca4-c283-4bc1-a992-d67be00dbf65virtual::8378-1ORIGINALu827366.pdfapplication/pdf3013009https://repositorio.uniandes.edu.co/bitstreams/7df6616c-f4af-441f-9462-377d8baccbff/download6d5dfb3ad73c700e6b9d89caa56b16bfMD51THUMBNAILu827366.pdf.jpgu827366.pdf.jpgIM Thumbnailimage/jpeg11222https://repositorio.uniandes.edu.co/bitstreams/e066d50a-c074-41af-b886-ed019aa2057e/download4e710ce417e28144e9412e23730592a3MD55TEXTu827366.pdf.txtu827366.pdf.txtExtracted texttext/plain67926https://repositorio.uniandes.edu.co/bitstreams/e411eab1-d769-40a8-96b8-6b821b0bdebf/download854abebe42f7d7d88fe03b4f1b02ebb0MD541992/44047oai:repositorio.uniandes.edu.co:1992/440472024-03-13 13:40:00.023http://creativecommons.org/licenses/by-nc-nd/4.0/open.accesshttps://repositorio.uniandes.edu.coRepositorio institucional Sénecaadminrepositorio@uniandes.edu.co