Guia metodológica para la selección de técnicas de depuración de datos
Los problemas de calidad de los datos han capturado la atención de los investigadores, llevando al desarrollo de múltiples técnicas para detectar y corregir los problemas en los datos, pero no es trivial decidir cuáles técnicas deben aplicarse a un conjunto de datos particular de la vida real. Para...
- Autores:
-
Amón Uribe, Iván
- Tipo de recurso:
- Fecha de publicación:
- 2010
- Institución:
- Universidad Nacional de Colombia
- Repositorio:
- Universidad Nacional de Colombia
- Idioma:
- spa
- OAI Identifier:
- oai:repositorio.unal.edu.co:unal/69915
- Acceso en línea:
- https://repositorio.unal.edu.co/handle/unal/69915
http://bdigital.unal.edu.co/2033/
- Palabra clave:
- 0 Generalidades / Computer science, information and general works
Depuración en Ciencia del Computador
Datos
Bases de datos
Programación (Computadores)
- Rights
- openAccess
- License
- Atribución-NoComercial 4.0 Internacional
id |
UNACIONAL2_d83884df375177dc8f1cce63654c442e |
---|---|
oai_identifier_str |
oai:repositorio.unal.edu.co:unal/69915 |
network_acronym_str |
UNACIONAL2 |
network_name_str |
Universidad Nacional de Colombia |
repository_id_str |
|
dc.title.spa.fl_str_mv |
Guia metodológica para la selección de técnicas de depuración de datos |
title |
Guia metodológica para la selección de técnicas de depuración de datos |
spellingShingle |
Guia metodológica para la selección de técnicas de depuración de datos 0 Generalidades / Computer science, information and general works Depuración en Ciencia del Computador Datos Bases de datos Programación (Computadores) |
title_short |
Guia metodológica para la selección de técnicas de depuración de datos |
title_full |
Guia metodológica para la selección de técnicas de depuración de datos |
title_fullStr |
Guia metodológica para la selección de técnicas de depuración de datos |
title_full_unstemmed |
Guia metodológica para la selección de técnicas de depuración de datos |
title_sort |
Guia metodológica para la selección de técnicas de depuración de datos |
dc.creator.fl_str_mv |
Amón Uribe, Iván |
dc.contributor.advisor.spa.fl_str_mv |
Jiménez Ramírez, Claudia Stella (Thesis advisor) |
dc.contributor.author.spa.fl_str_mv |
Amón Uribe, Iván |
dc.subject.ddc.spa.fl_str_mv |
0 Generalidades / Computer science, information and general works |
topic |
0 Generalidades / Computer science, information and general works Depuración en Ciencia del Computador Datos Bases de datos Programación (Computadores) |
dc.subject.proposal.spa.fl_str_mv |
Depuración en Ciencia del Computador Datos Bases de datos Programación (Computadores) |
description |
Los problemas de calidad de los datos han capturado la atención de los investigadores, llevando al desarrollo de múltiples técnicas para detectar y corregir los problemas en los datos, pero no es trivial decidir cuáles técnicas deben aplicarse a un conjunto de datos particular de la vida real. Para lograr buenos resultados en procesos de limpieza de datos, la elección de la técnica es fundamental, pero no se conoce de alguna metodología que detalle la forma de realizar dicha selección de técnicas. Es por esto que esta tesis de maestría construye una guía metodológica que oriente al analista de los datos hacia una selección, con mayor rigor científico, de las técnicas adecuadas para aplicar a un conjunto de datos particular de un dominio específico. La guía metodológica construida en este trabajo, orienta la selección de técnicas para tres de los posibles problemas que pueden presentar los datos: detección de duplicados, valores atípicos incorrectos y valores faltantes. Analistas de datos que requieran hacer tareas de depuración de datos para los tres problemas mencionados, encontrarán una guía metodológica expresada mediante diagramas de flujo, la cual recomienda una o varias técnicas –de entre algunas estudiadas- para su situación particular. / Abstract. Data quality problems have captured the attention of researchers, leading to the development of multiple techniques to detect and correct problems in the data, but it is not trivial to decide which techniques should be applied to a particular data set of real life. To achieve good results in data cleaning processes, the choice of technique is essential, but of the best of our knowledgement not known any methodology that details how to perform the selection of techniques. This work builds a methodological guide that orients the analyst of the data to a selection, with greater scientific rigor, appropriate techniques to apply to a particular data set from a specific domain. The guide direct the selection of techniques for three of the possible problems that may present the data: record linkage, outliers and missing values. Data analysts do tasks requiring data cleansing for the three problems mentioned above, find a methodological guide expressed by flowcharts, which recommends one or more techniques for their particular situation |
publishDate |
2010 |
dc.date.issued.spa.fl_str_mv |
2010 |
dc.date.accessioned.spa.fl_str_mv |
2019-07-03T13:03:42Z |
dc.date.available.spa.fl_str_mv |
2019-07-03T13:03:42Z |
dc.type.spa.fl_str_mv |
Trabajo de grado - Maestría |
dc.type.driver.spa.fl_str_mv |
info:eu-repo/semantics/masterThesis |
dc.type.version.spa.fl_str_mv |
info:eu-repo/semantics/acceptedVersion |
dc.type.content.spa.fl_str_mv |
Text |
dc.type.redcol.spa.fl_str_mv |
http://purl.org/redcol/resource_type/TM |
status_str |
acceptedVersion |
dc.identifier.uri.none.fl_str_mv |
https://repositorio.unal.edu.co/handle/unal/69915 |
dc.identifier.eprints.spa.fl_str_mv |
http://bdigital.unal.edu.co/2033/ |
url |
https://repositorio.unal.edu.co/handle/unal/69915 http://bdigital.unal.edu.co/2033/ |
dc.language.iso.spa.fl_str_mv |
spa |
language |
spa |
dc.relation.ispartof.spa.fl_str_mv |
Universidad Nacional de Colombia Sede Medellín Facultad de Minas Escuela de Ingeniería de Materiales Escuela de Ingeniería de Materiales |
dc.relation.references.spa.fl_str_mv |
Amón Uribe, Iván (2010) Guia metodológica para la selección de técnicas de depuración de datos. Maestría thesis, Universidad Nacional de Colombia. |
dc.rights.spa.fl_str_mv |
Derechos reservados - Universidad Nacional de Colombia |
dc.rights.coar.fl_str_mv |
http://purl.org/coar/access_right/c_abf2 |
dc.rights.license.spa.fl_str_mv |
Atribución-NoComercial 4.0 Internacional |
dc.rights.uri.spa.fl_str_mv |
http://creativecommons.org/licenses/by-nc/4.0/ |
dc.rights.accessrights.spa.fl_str_mv |
info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Atribución-NoComercial 4.0 Internacional Derechos reservados - Universidad Nacional de Colombia http://creativecommons.org/licenses/by-nc/4.0/ http://purl.org/coar/access_right/c_abf2 |
eu_rights_str_mv |
openAccess |
dc.format.mimetype.spa.fl_str_mv |
application/pdf |
institution |
Universidad Nacional de Colombia |
bitstream.url.fl_str_mv |
https://repositorio.unal.edu.co/bitstream/unal/69915/1/71644758.20103.pdf https://repositorio.unal.edu.co/bitstream/unal/69915/2/71644758.20102.pdf https://repositorio.unal.edu.co/bitstream/unal/69915/3/71644758.20104.pdf https://repositorio.unal.edu.co/bitstream/unal/69915/4/71644758.20101.pdf https://repositorio.unal.edu.co/bitstream/unal/69915/5/71644758.20103.pdf.jpg https://repositorio.unal.edu.co/bitstream/unal/69915/6/71644758.20102.pdf.jpg https://repositorio.unal.edu.co/bitstream/unal/69915/7/71644758.20104.pdf.jpg https://repositorio.unal.edu.co/bitstream/unal/69915/8/71644758.20101.pdf.jpg |
bitstream.checksum.fl_str_mv |
77cdef50098fc92a33f3980562d344f6 2f89d9e913fce90ac2364396231dd2ff 90158e4dbd289ea8f5c0bba63847e36d f5f8158298f0e043933186db4f6e94ba 272c298871176e3608693e3eac160ebf d3a75475c52473e1f63b509c5db4a984 268e7efc1a8ee93925983cf4044bdade 1ff65c511db734f08f10fee6bcbbf770 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositorio Institucional Universidad Nacional de Colombia |
repository.mail.fl_str_mv |
repositorio_nal@unal.edu.co |
_version_ |
1814089901847609344 |
spelling |
Atribución-NoComercial 4.0 InternacionalDerechos reservados - Universidad Nacional de Colombiahttp://creativecommons.org/licenses/by-nc/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Jiménez Ramírez, Claudia Stella (Thesis advisor)9ad19aca-058d-4a89-af77-fae9aedf931e-1Amón Uribe, Iván9c6cfe59-b659-46e5-84a2-d8c0dae74b883002019-07-03T13:03:42Z2019-07-03T13:03:42Z2010https://repositorio.unal.edu.co/handle/unal/69915http://bdigital.unal.edu.co/2033/Los problemas de calidad de los datos han capturado la atención de los investigadores, llevando al desarrollo de múltiples técnicas para detectar y corregir los problemas en los datos, pero no es trivial decidir cuáles técnicas deben aplicarse a un conjunto de datos particular de la vida real. Para lograr buenos resultados en procesos de limpieza de datos, la elección de la técnica es fundamental, pero no se conoce de alguna metodología que detalle la forma de realizar dicha selección de técnicas. Es por esto que esta tesis de maestría construye una guía metodológica que oriente al analista de los datos hacia una selección, con mayor rigor científico, de las técnicas adecuadas para aplicar a un conjunto de datos particular de un dominio específico. La guía metodológica construida en este trabajo, orienta la selección de técnicas para tres de los posibles problemas que pueden presentar los datos: detección de duplicados, valores atípicos incorrectos y valores faltantes. Analistas de datos que requieran hacer tareas de depuración de datos para los tres problemas mencionados, encontrarán una guía metodológica expresada mediante diagramas de flujo, la cual recomienda una o varias técnicas –de entre algunas estudiadas- para su situación particular. / Abstract. Data quality problems have captured the attention of researchers, leading to the development of multiple techniques to detect and correct problems in the data, but it is not trivial to decide which techniques should be applied to a particular data set of real life. To achieve good results in data cleaning processes, the choice of technique is essential, but of the best of our knowledgement not known any methodology that details how to perform the selection of techniques. This work builds a methodological guide that orients the analyst of the data to a selection, with greater scientific rigor, appropriate techniques to apply to a particular data set from a specific domain. The guide direct the selection of techniques for three of the possible problems that may present the data: record linkage, outliers and missing values. Data analysts do tasks requiring data cleansing for the three problems mentioned above, find a methodological guide expressed by flowcharts, which recommends one or more techniques for their particular situationMaestríaapplication/pdfspaUniversidad Nacional de Colombia Sede Medellín Facultad de Minas Escuela de Ingeniería de MaterialesEscuela de Ingeniería de MaterialesAmón Uribe, Iván (2010) Guia metodológica para la selección de técnicas de depuración de datos. Maestría thesis, Universidad Nacional de Colombia.0 Generalidades / Computer science, information and general worksDepuración en Ciencia del ComputadorDatosBases de datosProgramación (Computadores)Guia metodológica para la selección de técnicas de depuración de datosTrabajo de grado - Maestríainfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/acceptedVersionTexthttp://purl.org/redcol/resource_type/TMORIGINAL71644758.20103.pdfapplication/pdf69831https://repositorio.unal.edu.co/bitstream/unal/69915/1/71644758.20103.pdf77cdef50098fc92a33f3980562d344f6MD5171644758.20102.pdfapplication/pdf328368https://repositorio.unal.edu.co/bitstream/unal/69915/2/71644758.20102.pdf2f89d9e913fce90ac2364396231dd2ffMD5271644758.20104.pdfapplication/pdf248944https://repositorio.unal.edu.co/bitstream/unal/69915/3/71644758.20104.pdf90158e4dbd289ea8f5c0bba63847e36dMD5371644758.20101.pdfapplication/pdf2310143https://repositorio.unal.edu.co/bitstream/unal/69915/4/71644758.20101.pdff5f8158298f0e043933186db4f6e94baMD54THUMBNAIL71644758.20103.pdf.jpg71644758.20103.pdf.jpgGenerated Thumbnailimage/jpeg10043https://repositorio.unal.edu.co/bitstream/unal/69915/5/71644758.20103.pdf.jpg272c298871176e3608693e3eac160ebfMD5571644758.20102.pdf.jpg71644758.20102.pdf.jpgGenerated Thumbnailimage/jpeg9187https://repositorio.unal.edu.co/bitstream/unal/69915/6/71644758.20102.pdf.jpgd3a75475c52473e1f63b509c5db4a984MD5671644758.20104.pdf.jpg71644758.20104.pdf.jpgGenerated Thumbnailimage/jpeg8847https://repositorio.unal.edu.co/bitstream/unal/69915/7/71644758.20104.pdf.jpg268e7efc1a8ee93925983cf4044bdadeMD5771644758.20101.pdf.jpg71644758.20101.pdf.jpgGenerated Thumbnailimage/jpeg3575https://repositorio.unal.edu.co/bitstream/unal/69915/8/71644758.20101.pdf.jpg1ff65c511db734f08f10fee6bcbbf770MD58unal/69915oai:repositorio.unal.edu.co:unal/699152023-10-13 18:10:31.992Repositorio Institucional Universidad Nacional de Colombiarepositorio_nal@unal.edu.co |