MLExplore.js : exploring high-dimensional data by interacting and interpreting t-SNE and K-Means
In Exploratory Data Analysis (EDA), Machine Learning (ML) is an alternative for under-standing larger and high-dimensional data. Dimensionality Reduction (DR) algorithms suchas t-SNE produce two or three dimensional embeddings looking to preserve local and globalstructure of data. By the other hand,...
- Autores:
-
Peña Lozano, Fabián Camilo
- Tipo de recurso:
- Fecha de publicación:
- 2019
- Institución:
- Universidad de los Andes
- Repositorio:
- Séneca: repositorio Uniandes
- Idioma:
- eng
- OAI Identifier:
- oai:repositorio.uniandes.edu.co:1992/44047
- Acceso en línea:
- http://hdl.handle.net/1992/44047
- Palabra clave:
- Visualización de la información - Investigaciones - Estudio de casos
Aprendizaje automático (Inteligencia artificial) - Investigaciones - Estudio de casos
Analítica visual - Investigaciones - Estudio de casos
Ingeniería
- Rights
- openAccess
- License
- http://creativecommons.org/licenses/by-nc-nd/4.0/
id |
UNIANDES2_f789a9524ad0879c9f7d7600cecddfd4 |
---|---|
oai_identifier_str |
oai:repositorio.uniandes.edu.co:1992/44047 |
network_acronym_str |
UNIANDES2 |
network_name_str |
Séneca: repositorio Uniandes |
repository_id_str |
|
dc.title.es_CO.fl_str_mv |
MLExplore.js : exploring high-dimensional data by interacting and interpreting t-SNE and K-Means |
title |
MLExplore.js : exploring high-dimensional data by interacting and interpreting t-SNE and K-Means |
spellingShingle |
MLExplore.js : exploring high-dimensional data by interacting and interpreting t-SNE and K-Means Visualización de la información - Investigaciones - Estudio de casos Aprendizaje automático (Inteligencia artificial) - Investigaciones - Estudio de casos Analítica visual - Investigaciones - Estudio de casos Ingeniería |
title_short |
MLExplore.js : exploring high-dimensional data by interacting and interpreting t-SNE and K-Means |
title_full |
MLExplore.js : exploring high-dimensional data by interacting and interpreting t-SNE and K-Means |
title_fullStr |
MLExplore.js : exploring high-dimensional data by interacting and interpreting t-SNE and K-Means |
title_full_unstemmed |
MLExplore.js : exploring high-dimensional data by interacting and interpreting t-SNE and K-Means |
title_sort |
MLExplore.js : exploring high-dimensional data by interacting and interpreting t-SNE and K-Means |
dc.creator.fl_str_mv |
Peña Lozano, Fabián Camilo |
dc.contributor.advisor.none.fl_str_mv |
Hernández Peñaloza, José Tiberio Guerra Gómez, John Alexis |
dc.contributor.author.none.fl_str_mv |
Peña Lozano, Fabián Camilo |
dc.contributor.jury.none.fl_str_mv |
Núñez Castro, Haydemar María Sarmiento Dueñas, Olga Lucía |
dc.subject.armarc.es_CO.fl_str_mv |
Visualización de la información - Investigaciones - Estudio de casos Aprendizaje automático (Inteligencia artificial) - Investigaciones - Estudio de casos Analítica visual - Investigaciones - Estudio de casos |
topic |
Visualización de la información - Investigaciones - Estudio de casos Aprendizaje automático (Inteligencia artificial) - Investigaciones - Estudio de casos Analítica visual - Investigaciones - Estudio de casos Ingeniería |
dc.subject.themes.none.fl_str_mv |
Ingeniería |
description |
In Exploratory Data Analysis (EDA), Machine Learning (ML) is an alternative for under-standing larger and high-dimensional data. Dimensionality Reduction (DR) algorithms suchas t-SNE produce two or three dimensional embeddings looking to preserve local and globalstructure of data. By the other hand, Clustering algorithms such as K-Means seek to achievea similar goal by producing a cluster membership for each data instance. In general terms,when using these kind of algorithms, non-expert ML users can derive wrong conclusions ifan appropriate set of hyper-parameters for fitting the algorithm is not selected. Similarly,groups of attributes and data instances could represent, for instance, high-levels of noise inthe data significantly affecting the embedding and clustering formation. To address this, ML-Explore.js, a web-based tool for exploring high-dimensional tabular data that implements thet-SNE and K-Means algorithms running in the browser is presented. Because this tool is tar-geted to domain-expert users, some concepts and recommendations for designing user-centricML systems are derived from the Interactive ML and Interpretable ML sub-fields. Like someother ML-based EDA tools, MLExplore.js allows users to explore the hyper-parameter spacewhile interactively seeing how these changes affect the model results. In addition, the abilityto evidence model changes when user perform attribute selection and data navigation is alsoincluded. This enables domain-expert users to perform cluster-oriented DR task sequencessuch as verify clusters, name clusters and match cluster and classes. To demonstrate its usage,one case study of exploring a real-world dataset is presented. |
publishDate |
2019 |
dc.date.issued.es_CO.fl_str_mv |
2019 |
dc.date.accessioned.none.fl_str_mv |
2020-09-03T14:31:03Z |
dc.date.available.none.fl_str_mv |
2020-09-03T14:31:03Z |
dc.type.spa.fl_str_mv |
Trabajo de grado - Maestría |
dc.type.coarversion.fl_str_mv |
http://purl.org/coar/version/c_970fb48d4fbd8a85 |
dc.type.driver.spa.fl_str_mv |
info:eu-repo/semantics/masterThesis |
dc.type.content.spa.fl_str_mv |
Text |
dc.type.redcol.spa.fl_str_mv |
http://purl.org/redcol/resource_type/TM |
dc.identifier.uri.none.fl_str_mv |
http://hdl.handle.net/1992/44047 |
dc.identifier.pdf.none.fl_str_mv |
u827366.pdf |
dc.identifier.instname.spa.fl_str_mv |
instname:Universidad de los Andes |
dc.identifier.reponame.spa.fl_str_mv |
reponame:Repositorio Institucional Séneca |
dc.identifier.repourl.spa.fl_str_mv |
repourl:https://repositorio.uniandes.edu.co/ |
url |
http://hdl.handle.net/1992/44047 |
identifier_str_mv |
u827366.pdf instname:Universidad de los Andes reponame:Repositorio Institucional Séneca repourl:https://repositorio.uniandes.edu.co/ |
dc.language.iso.es_CO.fl_str_mv |
eng |
language |
eng |
dc.rights.uri.*.fl_str_mv |
http://creativecommons.org/licenses/by-nc-nd/4.0/ |
dc.rights.accessrights.spa.fl_str_mv |
info:eu-repo/semantics/openAccess |
dc.rights.coar.spa.fl_str_mv |
http://purl.org/coar/access_right/c_abf2 |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-nd/4.0/ http://purl.org/coar/access_right/c_abf2 |
eu_rights_str_mv |
openAccess |
dc.format.extent.es_CO.fl_str_mv |
44 hojas |
dc.format.mimetype.es_CO.fl_str_mv |
application/pdf |
dc.publisher.es_CO.fl_str_mv |
Uniandes |
dc.publisher.program.es_CO.fl_str_mv |
Maestría en Ingeniería de Información |
dc.publisher.faculty.es_CO.fl_str_mv |
Facultad de Ingeniería |
dc.publisher.department.es_CO.fl_str_mv |
Departamento de Ingeniería de Sistemas y Computación |
dc.source.es_CO.fl_str_mv |
instname:Universidad de los Andes reponame:Repositorio Institucional Séneca |
instname_str |
Universidad de los Andes |
institution |
Universidad de los Andes |
reponame_str |
Repositorio Institucional Séneca |
collection |
Repositorio Institucional Séneca |
bitstream.url.fl_str_mv |
https://repositorio.uniandes.edu.co/bitstreams/7df6616c-f4af-441f-9462-377d8baccbff/download https://repositorio.uniandes.edu.co/bitstreams/e066d50a-c074-41af-b886-ed019aa2057e/download https://repositorio.uniandes.edu.co/bitstreams/e411eab1-d769-40a8-96b8-6b821b0bdebf/download |
bitstream.checksum.fl_str_mv |
6d5dfb3ad73c700e6b9d89caa56b16bf 4e710ce417e28144e9412e23730592a3 854abebe42f7d7d88fe03b4f1b02ebb0 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositorio institucional Séneca |
repository.mail.fl_str_mv |
adminrepositorio@uniandes.edu.co |
_version_ |
1812133930398121984 |
spelling |
Al consultar y hacer uso de este recurso, está aceptando las condiciones de uso establecidas por los autores.http://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Hernández Peñaloza, José Tiberiovirtual::8377-1Guerra Gómez, John Alexisvirtual::8378-1Peña Lozano, Fabián Camilo53347736-507a-4d4d-8d45-9d407950bd4f500Núñez Castro, Haydemar MaríaSarmiento Dueñas, Olga Lucía2020-09-03T14:31:03Z2020-09-03T14:31:03Z2019http://hdl.handle.net/1992/44047u827366.pdfinstname:Universidad de los Andesreponame:Repositorio Institucional Sénecarepourl:https://repositorio.uniandes.edu.co/In Exploratory Data Analysis (EDA), Machine Learning (ML) is an alternative for under-standing larger and high-dimensional data. Dimensionality Reduction (DR) algorithms suchas t-SNE produce two or three dimensional embeddings looking to preserve local and globalstructure of data. By the other hand, Clustering algorithms such as K-Means seek to achievea similar goal by producing a cluster membership for each data instance. In general terms,when using these kind of algorithms, non-expert ML users can derive wrong conclusions ifan appropriate set of hyper-parameters for fitting the algorithm is not selected. Similarly,groups of attributes and data instances could represent, for instance, high-levels of noise inthe data significantly affecting the embedding and clustering formation. To address this, ML-Explore.js, a web-based tool for exploring high-dimensional tabular data that implements thet-SNE and K-Means algorithms running in the browser is presented. Because this tool is tar-geted to domain-expert users, some concepts and recommendations for designing user-centricML systems are derived from the Interactive ML and Interpretable ML sub-fields. Like someother ML-based EDA tools, MLExplore.js allows users to explore the hyper-parameter spacewhile interactively seeing how these changes affect the model results. In addition, the abilityto evidence model changes when user perform attribute selection and data navigation is alsoincluded. This enables domain-expert users to perform cluster-oriented DR task sequencessuch as verify clusters, name clusters and match cluster and classes. To demonstrate its usage,one case study of exploring a real-world dataset is presented.En Análisis Exploratorio de Datos (EDA), Machine Learning (ML) es una alternativa para entender datasets grandes y de altas dimensiones. Los algoritmos de Reducción de Dimensionalidad (DR) como t-SNE producen dos o tres dimensiones agregadas buscando preservar la estructura local y global de los datos. Por otro lado, algoritmos de Clustering como K-Means buscan un objetivo similar al producir una pertenencia de una instancia a un cluster. En términos generales, cuando se usan este tipo de algoritmos, usuarios no expertos en ML pueden derivar conclusiones erroneas si un conjunto apropiado de hiper parámetros no es seleccionado. Similarmente, grupos de atributos e instancias de datos pueden representar, por ejemplo, altos niveles de ruido en los datos afectando significativamente la formación de las dimensiones agregadas y los clusters. Para direccionar esto, ML-Explore.js, una herramienta web para explorar datos de altas dimensiones mediante los algoritmos de t-SNE y K-Means corriendo el navegador es presentada. Dado que esta herramienta esta diseñada para usuarios que no son expertos en ML, algunos conceptos y recomendaciones para diseñar sistemas de ML centrados en el usuario son derivados del ML Interactivo y el ML Interpretable. Como algunas otras herramientas EDA basadas en ML, MLExplore.js permite al usuario explorar el espacio de hiper parámetros mientras interactivamente ve como esos cambios afectan los resultados del modelo. Adicionalmente, también se incluye la posibilidad de evidenciar cambios en el modelo cuando el usuario realiza selección de atributos y navega sobre los datos. Esto habilita a usuarios expertos en el dominio a realizar secuencias de tareas de DR orientadas a clusters como verificar clusters, nombrar clusters y hacer match de clusters y clases. Para demostrar su uso, un caso de estudio de exploración de un dataset real es presentado.Magíster en Ingeniería de InformaciónMaestría44 hojasapplication/pdfengUniandesMaestría en Ingeniería de InformaciónFacultad de IngenieríaDepartamento de Ingeniería de Sistemas y Computacióninstname:Universidad de los Andesreponame:Repositorio Institucional SénecaMLExplore.js : exploring high-dimensional data by interacting and interpreting t-SNE and K-MeansTrabajo de grado - Maestríainfo:eu-repo/semantics/masterThesishttp://purl.org/coar/version/c_970fb48d4fbd8a85Texthttp://purl.org/redcol/resource_type/TMVisualización de la información - Investigaciones - Estudio de casosAprendizaje automático (Inteligencia artificial) - Investigaciones - Estudio de casosAnalítica visual - Investigaciones - Estudio de casosIngenieríaPublicationhttps://scholar.google.es/citations?user=-gUUc7oAAAAJvirtual::8377-10000-0002-5035-4363virtual::8377-1https://scienti.minciencias.gov.co/cvlac/visualizador/generarCurriculoCv.do?cod_rh=0000246689virtual::8377-1ad318216-13a5-4de4-9d7f-e3ab42397d84virtual::8377-126b87ca4-c283-4bc1-a992-d67be00dbf65virtual::8378-1ad318216-13a5-4de4-9d7f-e3ab42397d84virtual::8377-126b87ca4-c283-4bc1-a992-d67be00dbf65virtual::8378-1ORIGINALu827366.pdfapplication/pdf3013009https://repositorio.uniandes.edu.co/bitstreams/7df6616c-f4af-441f-9462-377d8baccbff/download6d5dfb3ad73c700e6b9d89caa56b16bfMD51THUMBNAILu827366.pdf.jpgu827366.pdf.jpgIM Thumbnailimage/jpeg11222https://repositorio.uniandes.edu.co/bitstreams/e066d50a-c074-41af-b886-ed019aa2057e/download4e710ce417e28144e9412e23730592a3MD55TEXTu827366.pdf.txtu827366.pdf.txtExtracted texttext/plain67926https://repositorio.uniandes.edu.co/bitstreams/e411eab1-d769-40a8-96b8-6b821b0bdebf/download854abebe42f7d7d88fe03b4f1b02ebb0MD541992/44047oai:repositorio.uniandes.edu.co:1992/440472024-03-13 13:40:00.023http://creativecommons.org/licenses/by-nc-nd/4.0/open.accesshttps://repositorio.uniandes.edu.coRepositorio institucional Sénecaadminrepositorio@uniandes.edu.co |