Desarrollo de librería para el método Spectral Clustering

La clasificación de datos con diferentes características, a lo largo del tiempo ha sido una necesidad en diferentes campos como la química, la medicina, la electrónica, entre otras. Hoy en día con el nacimiento de tecnologías basadas en Big data y teniendo en cuenta que los datos de cierta forma con...

Full description

Autores:
Morales Zapata, Arnold Julián
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
2018
Institución:
Instituto Tecnológico Metropolitano
Repositorio:
Repositorio ITM
Idioma:
spa
OAI Identifier:
oai:repositorio.itm.edu.co:20.500.12622/5696
Acceso en línea:
http://hdl.handle.net/20.500.12622/5696
Palabra clave:
Matriz de afinidad
Python
Matlab
Laplaciano
Affinity matrix
Algebra Lineal
Big Data
Rights
License
Acceso abierto
id RepoITM2_d24cd2f4afc0a81a152a73778d0bb63f
oai_identifier_str oai:repositorio.itm.edu.co:20.500.12622/5696
network_acronym_str RepoITM2
network_name_str Repositorio ITM
repository_id_str
dc.title.spa.fl_str_mv Desarrollo de librería para el método Spectral Clustering
title Desarrollo de librería para el método Spectral Clustering
spellingShingle Desarrollo de librería para el método Spectral Clustering
Matriz de afinidad
Python
Matlab
Laplaciano
Affinity matrix
Algebra Lineal
Big Data
title_short Desarrollo de librería para el método Spectral Clustering
title_full Desarrollo de librería para el método Spectral Clustering
title_fullStr Desarrollo de librería para el método Spectral Clustering
title_full_unstemmed Desarrollo de librería para el método Spectral Clustering
title_sort Desarrollo de librería para el método Spectral Clustering
dc.creator.fl_str_mv Morales Zapata, Arnold Julián
dc.contributor.advisor.none.fl_str_mv Castro Ospina, Andrés Eduardo
dc.contributor.author.none.fl_str_mv Morales Zapata, Arnold Julián
dc.subject.spa.fl_str_mv Matriz de afinidad
Python
Matlab
Laplaciano
topic Matriz de afinidad
Python
Matlab
Laplaciano
Affinity matrix
Algebra Lineal
Big Data
dc.subject.keywords.spa.fl_str_mv Affinity matrix
dc.subject.lemb.spa.fl_str_mv Algebra Lineal
Big Data
description La clasificación de datos con diferentes características, a lo largo del tiempo ha sido una necesidad en diferentes campos como la química, la medicina, la electrónica, entre otras. Hoy en día con el nacimiento de tecnologías basadas en Big data y teniendo en cuenta que los datos de cierta forma controlan el mundo, es imperativo desarrollar métodos para clasificar la información de una forma correcta y eficiente. Actualmente se han desarrollado varios algoritmos capaces de cumplir a cabalidad con esta tarea, entre los más comunes tenemos los K vecinos mas cercanos para conjuntos de datos con etiquetas conocidas o lo que se conocer como aprendizaje supervisado, K-means y Spectral Clustering para conjuntos de datos sin etiquetar o aprendizaje no supervisado. En el primer problema una de las falencias que se encuentra es clara, usualmente no se tienen los datos etiquetados, por el costo que conlleva algo así, situación que complica en gran manera el uso de este tipo de algoritmos. Los otros dos algoritmos anteriormente mencionados, tienen un funcionamiento similar. La diferencia de estos se encuentra en la forma de distribución de los datos, para el caso del K-means los datos deben ser linealmente separables y tener formas compactas y separadas entre grupos, mientras que para el spectral clustering, esta distribución no es importante, porque el método encuentra la distribución óptima, esto teniendo en cuenta ciertos parámetros de entrada que son la clave de éxito del algoritmo. Este trabajo particularmente se enfoca en el desarrollo del método spectral clustering, y las diferentes estrategias que existen para encontrar una matriz de afinidad, que es el núcleo del método, como método de desarrollo se hizo uso del álgebra lineal para de esta manera expresar las diferentes funciones en forma matricial y así tener algoritmos más eficientes.Para el proyecto se utilizaron bases de datos sintéticos, con distribuciones no separables linealmente y que no presentan necesariamente una forma compacta, que es el problema específico que busca resolver el método spectral clustering, además de ellos se grafican las diferentes matrices de afinidad y los resultados de agrupamiento de los algoritmos, para que se tenga una vista de qué tan eficaz puede llegar a ser el algoritmo.
publishDate 2018
dc.date.issued.none.fl_str_mv 2018
dc.date.accessioned.none.fl_str_mv 2022-08-18T16:14:58Z
dc.date.available.none.fl_str_mv 2022-08-18T16:14:58Z
dc.type.local.spa.fl_str_mv Trabajo de grado de pregrado
dc.type.coar.spa.fl_str_mv http://purl.org/coar/resource_type/c_7a1f
dc.type.driver.spa.fl_str_mv info:eu-repo/semantics/bachelorThesis
format http://purl.org/coar/resource_type/c_7a1f
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/20.500.12622/5696
dc.identifier.instname.spa.fl_str_mv instname:Instituto Tecnológico Metropolitano
dc.identifier.reponame.spa.fl_str_mv reponame:Repositorio Institucional Instituto Tecnológico Metropolitano
dc.identifier.repourl.none.fl_str_mv repourl:https://repositorio.itm.edu.co/
url http://hdl.handle.net/20.500.12622/5696
identifier_str_mv instname:Instituto Tecnológico Metropolitano
reponame:Repositorio Institucional Instituto Tecnológico Metropolitano
repourl:https://repositorio.itm.edu.co/
dc.language.iso.spa.fl_str_mv spa
language spa
dc.rights.coar.fl_str_mv http://purl.org/coar/access_right/c_abf2
dc.rights.local.spa.fl_str_mv Acceso abierto
dc.rights.creativecommons.*.fl_str_mv Attribution-NonCommercial-NoDerivatives 4.0 International
rights_invalid_str_mv Acceso abierto
Attribution-NonCommercial-NoDerivatives 4.0 International
http://purl.org/coar/access_right/c_abf2
dc.format.mimetype.none.fl_str_mv application/pdf
dc.publisher.faculty.spa.fl_str_mv Facultad de Ingenierías
dc.publisher.program.spa.fl_str_mv Ingeniería Electrónica
dc.publisher.grantor.spa.fl_str_mv Instituto Tecnológico Metropolitano
institution Instituto Tecnológico Metropolitano
bitstream.url.fl_str_mv https://dspace-itm.metabuscador.org/bitstreams/b3b8cb0b-81db-41a1-ac61-8341355820b2/download
https://dspace-itm.metabuscador.org/bitstreams/3ce3990b-a4d7-4265-bb49-d1783ac0b84e/download
https://dspace-itm.metabuscador.org/bitstreams/6b353267-31e3-4a18-b3fc-4504ab9384cc/download
https://dspace-itm.metabuscador.org/bitstreams/80f19a72-fd8f-4817-9c50-5cc6046e1e44/download
https://dspace-itm.metabuscador.org/bitstreams/7ad25840-4237-4cf6-b1d7-655a3a16258d/download
https://dspace-itm.metabuscador.org/bitstreams/ae022efd-c3f0-4b8d-81d3-4c80fec4f377/download
https://dspace-itm.metabuscador.org/bitstreams/90ed657a-0470-49a3-a77c-a551e961ca6b/download
bitstream.checksum.fl_str_mv b50a1ece16ad421543d0f7b5822f6907
9a580fe87dba8791c667167aef797a5f
3a97a9dfd77fe482590ef3459113fa20
75212419eaf7b9aa4cf3cef294c2f82b
2ec34302f8c7f71061c855280fb5bd8d
9e106d41a2537e5fe8af8412d47527ad
6d93d3216dc4a7f5df47d4876fbec4d3
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio Instituto Tecnológico Metropolitano de Medellín
repository.mail.fl_str_mv bdigital@metabiblioteca.com
_version_ 1837096907846975488
spelling Castro Ospina, Andrés EduardoMorales Zapata, Arnold Julián2022-08-18T16:14:58Z2022-08-18T16:14:58Z2018http://hdl.handle.net/20.500.12622/5696instname:Instituto Tecnológico Metropolitanoreponame:Repositorio Institucional Instituto Tecnológico Metropolitanorepourl:https://repositorio.itm.edu.co/La clasificación de datos con diferentes características, a lo largo del tiempo ha sido una necesidad en diferentes campos como la química, la medicina, la electrónica, entre otras. Hoy en día con el nacimiento de tecnologías basadas en Big data y teniendo en cuenta que los datos de cierta forma controlan el mundo, es imperativo desarrollar métodos para clasificar la información de una forma correcta y eficiente. Actualmente se han desarrollado varios algoritmos capaces de cumplir a cabalidad con esta tarea, entre los más comunes tenemos los K vecinos mas cercanos para conjuntos de datos con etiquetas conocidas o lo que se conocer como aprendizaje supervisado, K-means y Spectral Clustering para conjuntos de datos sin etiquetar o aprendizaje no supervisado. En el primer problema una de las falencias que se encuentra es clara, usualmente no se tienen los datos etiquetados, por el costo que conlleva algo así, situación que complica en gran manera el uso de este tipo de algoritmos. Los otros dos algoritmos anteriormente mencionados, tienen un funcionamiento similar. La diferencia de estos se encuentra en la forma de distribución de los datos, para el caso del K-means los datos deben ser linealmente separables y tener formas compactas y separadas entre grupos, mientras que para el spectral clustering, esta distribución no es importante, porque el método encuentra la distribución óptima, esto teniendo en cuenta ciertos parámetros de entrada que son la clave de éxito del algoritmo. Este trabajo particularmente se enfoca en el desarrollo del método spectral clustering, y las diferentes estrategias que existen para encontrar una matriz de afinidad, que es el núcleo del método, como método de desarrollo se hizo uso del álgebra lineal para de esta manera expresar las diferentes funciones en forma matricial y así tener algoritmos más eficientes.Para el proyecto se utilizaron bases de datos sintéticos, con distribuciones no separables linealmente y que no presentan necesariamente una forma compacta, que es el problema específico que busca resolver el método spectral clustering, además de ellos se grafican las diferentes matrices de afinidad y los resultados de agrupamiento de los algoritmos, para que se tenga una vista de qué tan eficaz puede llegar a ser el algoritmo.Ingeniero Electrónicopregradoapplication/pdfspaMatriz de afinidadPythonMatlabLaplacianoAffinity matrixAlgebra LinealBig DataDesarrollo de librería para el método Spectral ClusteringFacultad de IngenieríasIngeniería ElectrónicaInstituto Tecnológico MetropolitanoAcceso abiertoAttribution-NonCommercial-NoDerivatives 4.0 Internationalhttp://purl.org/coar/access_right/c_abf2Trabajo de grado de pregradohttp://purl.org/coar/resource_type/c_7a1finfo:eu-repo/semantics/bachelorThesisPublicationORIGINALArnoldJulian_MoralesZapata_2018.pdfArnoldJulian_MoralesZapata_2018.pdfTrabajo de gradoapplication/pdf1787819https://dspace-itm.metabuscador.org/bitstreams/b3b8cb0b-81db-41a1-ac61-8341355820b2/downloadb50a1ece16ad421543d0f7b5822f6907MD55trueAnonymousREADCarta_Autorizacion_Divulgacion_Morales_2018.pdfCarta_Autorizacion_Divulgacion_Morales_2018.pdfCarta de autorizaciónapplication/pdf184022https://dspace-itm.metabuscador.org/bitstreams/3ce3990b-a4d7-4265-bb49-d1783ac0b84e/download9a580fe87dba8791c667167aef797a5fMD52falseAnonymousREAD2050-12-31LICENSElicense.txtlicense.txttext/plain; charset=utf-81390https://dspace-itm.metabuscador.org/bitstreams/6b353267-31e3-4a18-b3fc-4504ab9384cc/download3a97a9dfd77fe482590ef3459113fa20MD54falseAnonymousREADTHUMBNAILArnoldJulian_MoralesZapata_2018.pdf.jpgArnoldJulian_MoralesZapata_2018.pdf.jpgGenerated Thumbnailimage/jpeg4265https://dspace-itm.metabuscador.org/bitstreams/80f19a72-fd8f-4817-9c50-5cc6046e1e44/download75212419eaf7b9aa4cf3cef294c2f82bMD56falseAnonymousREADCarta_Autorizacion_Divulgacion_Morales_2018.pdf.jpgCarta_Autorizacion_Divulgacion_Morales_2018.pdf.jpgGenerated Thumbnailimage/jpeg7863https://dspace-itm.metabuscador.org/bitstreams/7ad25840-4237-4cf6-b1d7-655a3a16258d/download2ec34302f8c7f71061c855280fb5bd8dMD57falseAnonymousREADTEXTArnoldJulian_MoralesZapata_2018.pdf.txtArnoldJulian_MoralesZapata_2018.pdf.txtExtracted texttext/plain53085https://dspace-itm.metabuscador.org/bitstreams/ae022efd-c3f0-4b8d-81d3-4c80fec4f377/download9e106d41a2537e5fe8af8412d47527adMD58falseAnonymousREADCarta_Autorizacion_Divulgacion_Morales_2018.pdf.txtCarta_Autorizacion_Divulgacion_Morales_2018.pdf.txtExtracted texttext/plain6https://dspace-itm.metabuscador.org/bitstreams/90ed657a-0470-49a3-a77c-a551e961ca6b/download6d93d3216dc4a7f5df47d4876fbec4d3MD59falseAnonymousREAD2050-12-3120.500.12622/5696oai:dspace-itm.metabuscador.org:20.500.12622/56962025-06-24 09:28:57.734open.accesshttps://dspace-itm.metabuscador.orgRepositorio Instituto Tecnológico Metropolitano de Medellínbdigital@metabiblioteca.comRWwgSW5zdGl0dXRvIFRlY25vbMOzZ2ljbyBNZXRyb3BvbGl0YW5vIChJVE0pLCBkaWZ1bmRlIG1lZGlhbnRlIHN1IFJlcG9zaXRvcmlvIEluc3RpdHVjaW9uYWwgbG9zIHRyYWJham9zIGRlIGludmVzdGlnYWNpw7NuIHByb2R1Y2lkb3MgcG9yIGxvcyBtaWVtYnJvcyBkZWwgSW5zdGl0dXRvLiBFbCBjb250ZW5pZG8gZGUgbG9zIGRvY3VtZW50b3MgZGlnaXRhbGVzIGVzIGRlIGFjY2VzbyBhYmllcnRvIHBhcmEgdG9kYSBwZXJzb25hIGludGVyZXNhZGEuCgpTZSBhY2xhcmEgcXVlIGVsIElUTSBubyB0aWVuZSBsb3MgZGVyZWNob3MgZGUgcHJvcGllZGFkIGludGVsZWN0dWFsLiBMb3MgZGVyZWNob3MgZGUgYXV0b3Igc2UgZW5jdWVudHJhbiBwcm90ZWdpZG9zIHBvciBsYSBsZWdpc2xhY2nDs24gY29sb21iaWEgZW4gbG9zIHTDqXJtaW5vcyBlc3RhYmxlY2lkb3MgZW4gbGEgTGV5IDIzIGRlIDE5ODIsIExleSA0NCBkZSAxOTkzLCBEZWNpc2nDs24gYW5kaW5hIDM1MSBkZSAxOTkzLCBEZWNyZXRvIDQ2MCBkZSAxOTk1IHkgZGVtw6FzIG5vcm1hcyBnZW5lcmFsZXMgc29icmUgbGEgbWF0ZXJpYSwgIHV0aWxpY2UgeSB1c2UgbGEgb2JyYSBvYmpldG8gZGUgbGEgcHJlc2VudGUgYXV0b3JpemFjacOzbi4gU2luIGVtYmFyZ28sIGxvcyBkZXJlY2hvcyBtb3JhbGVzIGRlbCBhdXRvcihlcykgc29uIGFmZWN0YWRvcyBwb3IgbGEgcHJlc2VudGUgbGljZW5jaWEgZGUgdXNvLgoKU2UgYWNlcHRhIGxhIGRpZnVzacOzbiBww7pibGljYSBkZSBsYSBvYnJhLCBzdSBjb3BpYSB5IGRpc3RyaWJ1Y2nDs24gc2llbXByZSBxdWUgc2UgY3VtcGxhIGNvbiBsYXMgc2lndWllbnRlcyBjb25kaWNpb25lczogCgrigKIJRWwgbmVjZXNhcmlvIHJlY29ub2NpbWllbnRvIGRlIGxhIGF1dG9yw61hIGRlIGxhIG9icmEsIGlkZW50aWZpY2FuZG8gb3BvcnR1bmEgeSBjb3JyZWN0YW1lbnRlIGEgbGEgcGVyc29uYSBxdWUgcG9zZWEgZGVyZWNob3MgZGUgYXV0b3IuCgrigKIJTm8gZXN0w6EgcGVybWl0aWRvIGVsIHVzbyBpbmRlYmlkbyBkZWwgdHJhYmFqbyBkZSBpbnZlc3RpZ2FjacOzbiBjb24gZmluZXMgZGUgbHVjcm8gbyBjdWFscXVpZXIgdGlwbyBkZSBhY3RpdmlkYWQgcXVlIHByb2R1emNhICBnYW5hbmNpYXMgYSBsYXMgcGVyc29uYXMgcXVlIGxvIGRpZnVuZGVuIHNpbiBlbCBjb25zZW50aW1pZW50byBkZWwgYXV0b3IoZXMpIGxlZ2FsKGVzKS4KCuKAoglMb3MgdHJhYmFqb3MgcXVlIHNlIHByb2R1emNhbiBhIHBhcnRpciBkZSBsYSBvYnJhLCBkZWJlIHBvc2VlciBsYSBjaXRhY2nDs24gcGVydGluZW50ZSB0YWwgY29tbyBpbmRpY2FuIGxhcyBOb3JtYXMgQVBBLiBDYXNvIGNvbnRyYXJpbywgc2UgaW5jdXJyaXLDoSBlbiBsYSBmaWd1cmEgZGVsIHBsYWdpby4KCg==