Detección de duplicados: una guía metodológica
Cuando una misma entidad del mundo real se almacena más de una vez, a través de una o varias bases de datos, en tuplas con igual estructura pero sin un identificador único y éstas presentan diferencias en sus valores, se presenta el fenómeno conocido como detección de duplicados. Para esta tarea, se...
- Autores:
-
Amón Uribe, Iván
Jiménez, Claudia
- Tipo de recurso:
- Trabajo de grado de pregrado
- Fecha de publicación:
- 2010
- Institución:
- Universidad Autónoma de Bucaramanga - UNAB
- Repositorio:
- Repositorio UNAB
- Idioma:
- spa
- OAI Identifier:
- oai:repository.unab.edu.co:20.500.12749/8942
- Acceso en línea:
- http://hdl.handle.net/20.500.12749/8942
- Palabra clave:
- Innovaciones tecnológicas
Ciencia de los computadores
Desarrollo de tecnología
Ingeniería de sistemas
Investigaciones
Tecnologías de la información y las comunicaciones
TIC´s
Technological innovations
Computer science
Technology development
Systems engineering
Investigations
Information and communication technologies
ICT's
Data cleansing
Data preprocessing
Data quality
Duplicate detection
Similarity functions
Innovaciones tecnológicas
Ciencias de la computación
Desarrollo tecnológico
Ingeniería de sistemas
Investigaciones
Tecnologías de la información y la comunicación
Limpieza de datos
Preprocesamiento de datos
Calidad de datos
Detección de duplicados
Funciones de similitud
- Rights
- License
- Derechos de autor 2010 Revista Colombiana de Computación
id |
UNAB2_958995b20d99c658e12167f6bce0e0e9 |
---|---|
oai_identifier_str |
oai:repository.unab.edu.co:20.500.12749/8942 |
network_acronym_str |
UNAB2 |
network_name_str |
Repositorio UNAB |
repository_id_str |
|
dc.title.spa.fl_str_mv |
Detección de duplicados: una guía metodológica |
dc.title.translated.eng.fl_str_mv |
Duplicate detection: a methodological guide |
title |
Detección de duplicados: una guía metodológica |
spellingShingle |
Detección de duplicados: una guía metodológica Innovaciones tecnológicas Ciencia de los computadores Desarrollo de tecnología Ingeniería de sistemas Investigaciones Tecnologías de la información y las comunicaciones TIC´s Technological innovations Computer science Technology development Systems engineering Investigations Information and communication technologies ICT's Data cleansing Data preprocessing Data quality Duplicate detection Similarity functions Innovaciones tecnológicas Ciencias de la computación Desarrollo tecnológico Ingeniería de sistemas Investigaciones Tecnologías de la información y la comunicación Limpieza de datos Preprocesamiento de datos Calidad de datos Detección de duplicados Funciones de similitud |
title_short |
Detección de duplicados: una guía metodológica |
title_full |
Detección de duplicados: una guía metodológica |
title_fullStr |
Detección de duplicados: una guía metodológica |
title_full_unstemmed |
Detección de duplicados: una guía metodológica |
title_sort |
Detección de duplicados: una guía metodológica |
dc.creator.fl_str_mv |
Amón Uribe, Iván Jiménez, Claudia |
dc.contributor.author.spa.fl_str_mv |
Amón Uribe, Iván Jiménez, Claudia |
dc.contributor.cvlac.spa.fl_str_mv |
Amón Uribe, Iván [0000703796] |
dc.contributor.googlescholar.spa.fl_str_mv |
Jiménez, Claudia [tXMokdIAAAAJ] |
dc.contributor.orcid.spa.fl_str_mv |
Jiménez, Claudia [0000-0002-3741-320X] |
dc.subject.none.fl_str_mv |
Innovaciones tecnológicas Ciencia de los computadores Desarrollo de tecnología Ingeniería de sistemas Investigaciones Tecnologías de la información y las comunicaciones TIC´s |
topic |
Innovaciones tecnológicas Ciencia de los computadores Desarrollo de tecnología Ingeniería de sistemas Investigaciones Tecnologías de la información y las comunicaciones TIC´s Technological innovations Computer science Technology development Systems engineering Investigations Information and communication technologies ICT's Data cleansing Data preprocessing Data quality Duplicate detection Similarity functions Innovaciones tecnológicas Ciencias de la computación Desarrollo tecnológico Ingeniería de sistemas Investigaciones Tecnologías de la información y la comunicación Limpieza de datos Preprocesamiento de datos Calidad de datos Detección de duplicados Funciones de similitud |
dc.subject.keywords.eng.fl_str_mv |
Technological innovations Computer science Technology development Systems engineering Investigations Information and communication technologies ICT's Data cleansing Data preprocessing Data quality Duplicate detection Similarity functions |
dc.subject.lemb.spa.fl_str_mv |
Innovaciones tecnológicas Ciencias de la computación Desarrollo tecnológico Ingeniería de sistemas Investigaciones Tecnologías de la información y la comunicación |
dc.subject.proposal.spa.fl_str_mv |
Limpieza de datos Preprocesamiento de datos Calidad de datos Detección de duplicados Funciones de similitud |
description |
Cuando una misma entidad del mundo real se almacena más de una vez, a través de una o varias bases de datos, en tuplas con igual estructura pero sin un identificador único y éstas presentan diferencias en sus valores, se presenta el fenómeno conocido como detección de duplicados. Para esta tarea, se han desarrollado múltiples funciones de similitud las cuales detectan las cadenas de texto que son similares mas no idénticas. En este artículo se propone una guía metodológica para seleccionar entre nueve de estas funciones de similitud (Levenshtein, Brecha Afín, Smith-Waterman, Jaro, Jaro-Winkler, Bi-grams, Tri-grams, Monge-Elkan y SoftTF-IDF) la más adecuada para un caso específico o situación particular, de acuerdo con la naturaleza de los datos que se estén analizando. |
publishDate |
2010 |
dc.date.issued.none.fl_str_mv |
2010-12-01 |
dc.date.accessioned.none.fl_str_mv |
2020-10-27T00:20:38Z |
dc.date.available.none.fl_str_mv |
2020-10-27T00:20:38Z |
dc.type.coar.fl_str_mv |
http://purl.org/coar/resource_type/c_2df8fbb1 |
dc.type.driver.none.fl_str_mv |
info:eu-repo/semantics/article |
dc.type.local.spa.fl_str_mv |
Artículo |
dc.type.coar.none.fl_str_mv |
http://purl.org/coar/resource_type/c_7a1f |
dc.type.redcol.none.fl_str_mv |
http://purl.org/redcol/resource_type/CJournalArticle |
format |
http://purl.org/coar/resource_type/c_7a1f |
dc.identifier.issn.none.fl_str_mv |
2539-2115 1657-2831 |
dc.identifier.uri.none.fl_str_mv |
http://hdl.handle.net/20.500.12749/8942 |
dc.identifier.instname.spa.fl_str_mv |
instname:Universidad Autónoma de Bucaramanga UNAB |
dc.identifier.repourl.none.fl_str_mv |
repourl:https://repository.unab.edu.co |
identifier_str_mv |
2539-2115 1657-2831 instname:Universidad Autónoma de Bucaramanga UNAB repourl:https://repository.unab.edu.co |
url |
http://hdl.handle.net/20.500.12749/8942 |
dc.language.iso.spa.fl_str_mv |
spa |
language |
spa |
dc.relation.none.fl_str_mv |
https://revistas.unab.edu.co/index.php/rcc/article/view/1387/1332 |
dc.relation.uri.none.fl_str_mv |
https://revistas.unab.edu.co/index.php/rcc/article/view/1387 |
dc.relation.references.none.fl_str_mv |
I.Amón y C. Jiménez. Hacia una Metodología para la selección de técnicas de depuración de datos. Avances en Sistemas e Informática, 6(1):185-190, 2009. A.N. Arslan y O. Eğecioğlu, A New Approach to Sequence Comparison: Normalized Sequence. Alignment. Bioinformatics, 17(4):327-337, 2001. R. Baeza-Yates y G.H. Gonnet. A new approach to Text Searching.Communications ofthe ACM, 35(10):74-82, 1992. M. Bilenko y R.J. Mooney. Learning to Combine Trained Distance Metrics for Duplicate Detection in Databases. En Proceedings of the Ninth ACM SIGKDD International Conference on Knowledge Discoveryand Data Mining, pags. 39- 48, 2003. E. Breimer y M. Goldberg. Learning Significant Alignments: An Alternative to Normalized Local Alignment. En Proceedings of the 13th International Symposium on Foundations of Intelligent Systems, pags. 37-45, 2002. P. Christen. A Comparison of Personal Name Matching: Techniques and Practical Issues. En Sixth IEEE International Conference on Data Mining, pags. 290-294, 2006. W.W. Cohen, P. Ravikumarand y S.E. Fienberg. A Comparison of String Distance Metrics for Name-Matching Tasks. En International Joint Conference on Artificial Intelligence, pags. 73-78, 2003. J.D.Cohen. Recursive Hashing Functions for n-Grams, ACM Transactions on Information Systems, 15(3):291-320, 1997. W.W. Cohen. Integration of Heterogeneous Databases without Common Domains Using Queries Based on Textual Similarity. En Proceedings of the SIGMOD International Conference Management ofData SIGMOD'98, pags. 201-212, 1998. R. da Silva et al. Measuring Quality of Similarity Functions in Approximate Data Matching.Journal ofInformetrics, 1(1):35-46, 2007. H.L. Dunn. Record Linkage. Americal Journal of Public Health, 36(12): 1412-1416, 1946. O. Eğecioğlu y M. Ibel. ParallelAlgorithms for Fast Computation of Normalized Edit Distances. En Proceedings of the 8th IEEE Symposium on Parallel and Distributed Processing, pags. 496- 503, 1996. A.K. Elmagarmid; P.G. Ipeirotis y V.S. Verykios. Duplicate Record Detection: A Survey. IEEE Transactions on Knowledge and Data Engineering, 19(1):1-40, 2007. I.P. Fellegi yA.B. Sunter.ATheory for Record Linkage.Journal of the American StatisticalAssociation, 64(328):1183-1210, 1969. A. Gelbukh et al. Generalized Mongue-Elkan Method for Approximate Text String Comparison. En Proceedings of the 10th International Conference on Computational Linguistics and Intelligent Text Processing, pags. 559-570, 2009. O. Gotoh. An Improved Algorithm for Matching Biological Sequences.Journal ofMolecular Biology, 162(3):705-708, 1982. C.A. Heuser; F.N. Krieser y V.M. Orengo. SimEval - A Tool for Evaluating the Quality of Similarity Functions. En Tutorials, posters, panels and industrial contributions at the 26th International Conference on Conceptual Modeling, pags. 71-76, 2007. H. Hyyrö. A Bit-vector Algorithm for Computing Levenshtein and Damerau Edit Distances. En The Prague Stringology Conference '02, pags. 29-39, 2002. M.A. Jaro. Unimatch: A Record Linkage System User's Manual. Technical report, Washington, D.C.: US Bureau of the Census, 1976. H. Keskustalo et al. Non-adjacent Digrams Improve Matching of Cross-Lingual Spelling Variants. En International Symposium on String Processing and Information Retrieval, pags. 252-256, 2003. V.I. Levenshtein. Binary Codes Capable of Correcting Deletions, Insertions, and Reversals. Soviet Physics Doklady, 10(8):707- 710, 1966. R. Lowrence y R.A. Wagner.An Extension of the String-to-String Correction Problem.Journal ofthe ACM, 22(2):177-183, 1975. A. Marzal y E. Vidal. Computation of Normalized Edit Distance and Applications. IEEE Transactions on Patern Analysis and Machine Intelligence, 15(9): 926-932, 1993. W.J. Masek. A Faster Algorithm for Computing String Edit Distances. Journal of Computer and System Sciences, 20(1):18- 31, 1980. A.E. Monge y C.P. Elkan. The Field Matching Problem: Algorithms and Applications. En Proceedings of the Second International Conference on Knowledge Discovery and Data Mining, pags. 267-270, 1996. E. Moreau; F. Yvon y O. Cappé. Robust Similarity Measures for Named Entities Matching. En Proceedings of the 22nd International Conference on Computational Linguistics, pags. 593-600, 2008. S.B. Needleman y C.D. Wunsh. A General Method Applicable to the Search for Similarities in the Amino Acid Sequence of Two Proteins,J Mol Biol, 48(3):443–453, 1970. H. Newcombe y J. Kennedy. Record Linkage: Making Maximum Use of the Discriminating Power of Identifying Information, Communications ofthe ACM, 5(11):563- 566, 1962. H. Newcombe et al. Automatic Linkage of Vital Records. Science, 130(3381): 954-959, 1959. J.J.Pollock y A. Zamora. Automatic Spelling Correction in Scientific and Scholarly Text. Communications of the ACM, 27(4):358-368, 1984. E. Ristad y P. Yianilos. Learning string edit distance. IEEE Transactions on Pattern Analysis and Machine Intelligence, 20(5): 522-532, 1998. T.F. Smith y M.S. Waterman. Identification of Common Molecular Subsequences. Journal of Molecular Biology, 147(1):195-197, 1981. E. Sutinen y J. Tarhio. On Using Q-Gram Locations in Approximate String Matching. En Proceedings of the Third 22 Iván Amón, Claudia Jiménez Annual European Symposium on Algorithms, pags. 327-340, 1985. E. Vidal; A. Marzal y P. Aibar. Fast Computation of Normalized Edit Distances. IEEE Transactions on Pattern Analysis and Machine Intelligence, 17(9):899-902, 1995. R.A. Wagner y M.J. Fischer. The String-to-String Correction Problem.Journal ofthe ACM, 21(1):168-173, 1974. A. Weigel y F. Fein. Normalizing the Weighted Edit Distance. En Proceedings of the 12th IAPR International Conference on Pattern Recognition, pags. 399-402, 1994. W.E. Winkler. Frequency-Based Matching in the Fellegi-Sunter Model of Record Linkage. En Proceedings of the Section on SurveyResearch Methods, pags. 778-783, 1989. W.E. Winkler. String Comparator Metrics and Enhanced Decision Rules in the Fellegi-Sunter Model of Record Linkage. En Proceedings ofthe Section on SurveyResearch Methods, pags. 354-359, 1990. W.E. Winkler. Improved Decision Rules in the Felligi-Sunter Model of Record Linkage. En Proceedings of the Section on SurveyResearch Methods, pags. 274-279, 1993. W.E. Winkler. Using the EM Algorithm for Weight Computation in the Fellegi-Sunter Model of Record Linkage. En Proceedings ofthe Section on SurveyResearch Methods, pag. 667-671, 2000. W.E. Yancey. Evaluating String Comparator Performance for Record Linkage. En Proceedings of the Fifth Australasian Conference on Data mining and Analytics, pags. 21-23, 2006. L. Yujian y L. Bo. A Normalized Levenshtein Distance Metric. IEEE Transactions on Pattern Analysis and Machine Intelligence, 29(6):1091-1095, 2007. |
dc.rights.none.fl_str_mv |
Derechos de autor 2010 Revista Colombiana de Computación |
dc.rights.coar.fl_str_mv |
http://purl.org/coar/access_right/c_abf2 |
dc.rights.uri.*.fl_str_mv |
http://creativecommons.org/licenses/by-nc-sa/4.0/ |
dc.rights.uri.none.fl_str_mv |
http://creativecommons.org/licenses/by-nc-nd/2.5/co/ http://creativecommons.org/licenses/by-nc-nd/2.5/co/ |
dc.rights.creativecommons.*.fl_str_mv |
Attribution-NonCommercial-ShareAlike 4.0 International |
rights_invalid_str_mv |
Derechos de autor 2010 Revista Colombiana de Computación http://creativecommons.org/licenses/by-nc-sa/4.0/ http://creativecommons.org/licenses/by-nc-nd/2.5/co/ Attribution-NonCommercial-ShareAlike 4.0 International http://purl.org/coar/access_right/c_abf2 |
dc.format.mimetype.spa.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidad Autónoma de Bucaramanga UNAB |
publisher.none.fl_str_mv |
Universidad Autónoma de Bucaramanga UNAB |
dc.source.none.fl_str_mv |
Revista Colombiana de Computación; Vol. 11 Núm. 2 (2010): Revista Colombiana de Computación; 7-23 |
institution |
Universidad Autónoma de Bucaramanga - UNAB |
bitstream.url.fl_str_mv |
https://repository.unab.edu.co/bitstream/20.500.12749/8942/1/2010_Articulo_Deteccion%20de%20duplicados%20una%20guia%20metodologica.pdf https://repository.unab.edu.co/bitstream/20.500.12749/8942/2/2010_Articulo_Deteccion%20de%20duplicados%20una%20guia%20metodologica.pdf.jpg |
bitstream.checksum.fl_str_mv |
29b9b7635272e97270601c76f11e16b8 d889576a9c7ec01f7fb71452fa9b0acb |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Repositorio Institucional | Universidad Autónoma de Bucaramanga - UNAB |
repository.mail.fl_str_mv |
repositorio@unab.edu.co |
_version_ |
1814277879936057344 |
spelling |
Amón Uribe, Ivánf5f29f99-574d-4996-83d6-4c321871acd2Jiménez, Claudiae534d556-4baa-4f70-a551-307e7bc01b2eAmón Uribe, Iván [0000703796]Jiménez, Claudia [tXMokdIAAAAJ]Jiménez, Claudia [0000-0002-3741-320X]2020-10-27T00:20:38Z2020-10-27T00:20:38Z2010-12-012539-21151657-2831http://hdl.handle.net/20.500.12749/8942instname:Universidad Autónoma de Bucaramanga UNABrepourl:https://repository.unab.edu.coCuando una misma entidad del mundo real se almacena más de una vez, a través de una o varias bases de datos, en tuplas con igual estructura pero sin un identificador único y éstas presentan diferencias en sus valores, se presenta el fenómeno conocido como detección de duplicados. Para esta tarea, se han desarrollado múltiples funciones de similitud las cuales detectan las cadenas de texto que son similares mas no idénticas. En este artículo se propone una guía metodológica para seleccionar entre nueve de estas funciones de similitud (Levenshtein, Brecha Afín, Smith-Waterman, Jaro, Jaro-Winkler, Bi-grams, Tri-grams, Monge-Elkan y SoftTF-IDF) la más adecuada para un caso específico o situación particular, de acuerdo con la naturaleza de los datos que se estén analizando.When the same real-world entity is stored more than once, across one or more several databases, in tuples with the same structure but without a unique identifier and these present differences in their values, the phenomenon known as detection of duplicates. For this task, multiple similarity functions have been developed which they detect text strings that are similar but not identical. This article proposes a methodological guide to selecting among nine of these similarity functions (Levenshtein, Affine Gap, Smith-Waterman, Jaro, Jaro-Winkler, Bi-grams, Tri-grams, Monge-Elkan and SoftTF-IDF) the most suitable for a specific case or situation according to the nature of the data being analyzed.application/pdfspaUniversidad Autónoma de Bucaramanga UNABhttps://revistas.unab.edu.co/index.php/rcc/article/view/1387/1332https://revistas.unab.edu.co/index.php/rcc/article/view/1387I.Amón y C. Jiménez. Hacia una Metodología para la selección de técnicas de depuración de datos. Avances en Sistemas e Informática, 6(1):185-190, 2009.A.N. Arslan y O. Eğecioğlu, A New Approach to Sequence Comparison: Normalized Sequence. Alignment. Bioinformatics, 17(4):327-337, 2001.R. Baeza-Yates y G.H. Gonnet. A new approach to Text Searching.Communications ofthe ACM, 35(10):74-82, 1992.M. Bilenko y R.J. Mooney. Learning to Combine Trained Distance Metrics for Duplicate Detection in Databases. En Proceedings of the Ninth ACM SIGKDD International Conference on Knowledge Discoveryand Data Mining, pags. 39- 48, 2003.E. Breimer y M. Goldberg. Learning Significant Alignments: An Alternative to Normalized Local Alignment. En Proceedings of the 13th International Symposium on Foundations of Intelligent Systems, pags. 37-45, 2002.P. Christen. A Comparison of Personal Name Matching: Techniques and Practical Issues. En Sixth IEEE International Conference on Data Mining, pags. 290-294, 2006.W.W. Cohen, P. Ravikumarand y S.E. Fienberg. A Comparison of String Distance Metrics for Name-Matching Tasks. En International Joint Conference on Artificial Intelligence, pags. 73-78, 2003.J.D.Cohen. Recursive Hashing Functions for n-Grams, ACM Transactions on Information Systems, 15(3):291-320, 1997.W.W. Cohen. Integration of Heterogeneous Databases without Common Domains Using Queries Based on Textual Similarity. En Proceedings of the SIGMOD International Conference Management ofData SIGMOD'98, pags. 201-212, 1998.R. da Silva et al. Measuring Quality of Similarity Functions in Approximate Data Matching.Journal ofInformetrics, 1(1):35-46, 2007.H.L. Dunn. Record Linkage. Americal Journal of Public Health, 36(12): 1412-1416, 1946.O. Eğecioğlu y M. Ibel. ParallelAlgorithms for Fast Computation of Normalized Edit Distances. En Proceedings of the 8th IEEE Symposium on Parallel and Distributed Processing, pags. 496- 503, 1996.A.K. Elmagarmid; P.G. Ipeirotis y V.S. Verykios. Duplicate Record Detection: A Survey. IEEE Transactions on Knowledge and Data Engineering, 19(1):1-40, 2007.I.P. Fellegi yA.B. Sunter.ATheory for Record Linkage.Journal of the American StatisticalAssociation, 64(328):1183-1210, 1969.A. Gelbukh et al. Generalized Mongue-Elkan Method for Approximate Text String Comparison. En Proceedings of the 10th International Conference on Computational Linguistics and Intelligent Text Processing, pags. 559-570, 2009.O. Gotoh. An Improved Algorithm for Matching Biological Sequences.Journal ofMolecular Biology, 162(3):705-708, 1982.C.A. Heuser; F.N. Krieser y V.M. Orengo. SimEval - A Tool for Evaluating the Quality of Similarity Functions. En Tutorials, posters, panels and industrial contributions at the 26th International Conference on Conceptual Modeling, pags. 71-76, 2007.H. Hyyrö. A Bit-vector Algorithm for Computing Levenshtein and Damerau Edit Distances. En The Prague Stringology Conference '02, pags. 29-39, 2002.M.A. Jaro. Unimatch: A Record Linkage System User's Manual. Technical report, Washington, D.C.: US Bureau of the Census, 1976.H. Keskustalo et al. Non-adjacent Digrams Improve Matching of Cross-Lingual Spelling Variants. En International Symposium on String Processing and Information Retrieval, pags. 252-256, 2003.V.I. Levenshtein. Binary Codes Capable of Correcting Deletions, Insertions, and Reversals. Soviet Physics Doklady, 10(8):707- 710, 1966.R. Lowrence y R.A. Wagner.An Extension of the String-to-String Correction Problem.Journal ofthe ACM, 22(2):177-183, 1975.A. Marzal y E. Vidal. Computation of Normalized Edit Distance and Applications. IEEE Transactions on Patern Analysis and Machine Intelligence, 15(9): 926-932, 1993.W.J. Masek. A Faster Algorithm for Computing String Edit Distances. Journal of Computer and System Sciences, 20(1):18- 31, 1980.A.E. Monge y C.P. Elkan. The Field Matching Problem: Algorithms and Applications. En Proceedings of the Second International Conference on Knowledge Discovery and Data Mining, pags. 267-270, 1996.E. Moreau; F. Yvon y O. Cappé. Robust Similarity Measures for Named Entities Matching. En Proceedings of the 22nd International Conference on Computational Linguistics, pags. 593-600, 2008.S.B. Needleman y C.D. Wunsh. A General Method Applicable to the Search for Similarities in the Amino Acid Sequence of Two Proteins,J Mol Biol, 48(3):443–453, 1970.H. Newcombe y J. Kennedy. Record Linkage: Making Maximum Use of the Discriminating Power of Identifying Information, Communications ofthe ACM, 5(11):563- 566, 1962.H. Newcombe et al. Automatic Linkage of Vital Records. Science, 130(3381): 954-959, 1959.J.J.Pollock y A. Zamora. Automatic Spelling Correction in Scientific and Scholarly Text. Communications of the ACM, 27(4):358-368, 1984.E. Ristad y P. Yianilos. Learning string edit distance. IEEE Transactions on Pattern Analysis and Machine Intelligence, 20(5): 522-532, 1998.T.F. Smith y M.S. Waterman. Identification of Common Molecular Subsequences. Journal of Molecular Biology, 147(1):195-197, 1981.E. Sutinen y J. Tarhio. On Using Q-Gram Locations in Approximate String Matching. En Proceedings of the Third 22 Iván Amón, Claudia Jiménez Annual European Symposium on Algorithms, pags. 327-340, 1985.E. Vidal; A. Marzal y P. Aibar. Fast Computation of Normalized Edit Distances. IEEE Transactions on Pattern Analysis and Machine Intelligence, 17(9):899-902, 1995.R.A. Wagner y M.J. Fischer. The String-to-String Correction Problem.Journal ofthe ACM, 21(1):168-173, 1974.A. Weigel y F. Fein. Normalizing the Weighted Edit Distance. En Proceedings of the 12th IAPR International Conference on Pattern Recognition, pags. 399-402, 1994.W.E. Winkler. Frequency-Based Matching in the Fellegi-Sunter Model of Record Linkage. En Proceedings of the Section on SurveyResearch Methods, pags. 778-783, 1989.W.E. Winkler. String Comparator Metrics and Enhanced Decision Rules in the Fellegi-Sunter Model of Record Linkage. En Proceedings ofthe Section on SurveyResearch Methods, pags. 354-359, 1990.W.E. Winkler. Improved Decision Rules in the Felligi-Sunter Model of Record Linkage. En Proceedings of the Section on SurveyResearch Methods, pags. 274-279, 1993.W.E. Winkler. Using the EM Algorithm for Weight Computation in the Fellegi-Sunter Model of Record Linkage. En Proceedings ofthe Section on SurveyResearch Methods, pag. 667-671, 2000.W.E. Yancey. Evaluating String Comparator Performance for Record Linkage. En Proceedings of the Fifth Australasian Conference on Data mining and Analytics, pags. 21-23, 2006.L. Yujian y L. Bo. A Normalized Levenshtein Distance Metric. IEEE Transactions on Pattern Analysis and Machine Intelligence, 29(6):1091-1095, 2007.Derechos de autor 2010 Revista Colombiana de Computaciónhttp://creativecommons.org/licenses/by-nc-sa/4.0/http://creativecommons.org/licenses/by-nc-nd/2.5/co/http://creativecommons.org/licenses/by-nc-nd/2.5/co/Attribution-NonCommercial-ShareAlike 4.0 Internationalhttp://purl.org/coar/access_right/c_abf2Revista Colombiana de Computación; Vol. 11 Núm. 2 (2010): Revista Colombiana de Computación; 7-23Innovaciones tecnológicasCiencia de los computadoresDesarrollo de tecnologíaIngeniería de sistemasInvestigacionesTecnologías de la información y las comunicacionesTIC´sTechnological innovationsComputer scienceTechnology developmentSystems engineeringInvestigationsInformation and communication technologiesICT'sData cleansingData preprocessingData qualityDuplicate detectionSimilarity functionsInnovaciones tecnológicasCiencias de la computaciónDesarrollo tecnológicoIngeniería de sistemasInvestigacionesTecnologías de la información y la comunicaciónLimpieza de datosPreprocesamiento de datosCalidad de datosDetección de duplicadosFunciones de similitudDetección de duplicados: una guía metodológicaDuplicate detection: a methodological guideinfo:eu-repo/semantics/articleArtículohttp://purl.org/coar/resource_type/c_7a1fhttp://purl.org/coar/resource_type/c_2df8fbb1http://purl.org/redcol/resource_type/CJournalArticleORIGINAL2010_Articulo_Deteccion de duplicados una guia metodologica.pdf2010_Articulo_Deteccion de duplicados una guia metodologica.pdfArtículoapplication/pdf370405https://repository.unab.edu.co/bitstream/20.500.12749/8942/1/2010_Articulo_Deteccion%20de%20duplicados%20una%20guia%20metodologica.pdf29b9b7635272e97270601c76f11e16b8MD51open accessTHUMBNAIL2010_Articulo_Deteccion de duplicados una guia metodologica.pdf.jpg2010_Articulo_Deteccion de duplicados una guia metodologica.pdf.jpgIM Thumbnailimage/jpeg6260https://repository.unab.edu.co/bitstream/20.500.12749/8942/2/2010_Articulo_Deteccion%20de%20duplicados%20una%20guia%20metodologica.pdf.jpgd889576a9c7ec01f7fb71452fa9b0acbMD52open access20.500.12749/8942oai:repository.unab.edu.co:20.500.12749/89422022-11-23 15:59:15.256open accessRepositorio Institucional | Universidad Autónoma de Bucaramanga - UNABrepositorio@unab.edu.co |