Algoritmo fonético para detección de cadenas de texto duplicadas en el idioma español

Con frecuencia datos que deberían estar escritos de forma idéntica no lo están debido a errores ortográficos y tipográficos, variaciones en el orden de las palabras, uso de prefijos y sufijos, entre otros. Las técnicas fonéticas para detección de duplicados no están orientadas al idioma español, lo...

Full description

Autores:
Amón, Iván
Moreno, Francisco
Echeverri, Jaime
Tipo de recurso:
Article of journal
Fecha de publicación:
2012
Institución:
Universidad de Medellín
Repositorio:
Repositorio UDEM
Idioma:
spa
OAI Identifier:
oai:repository.udem.edu.co:11407/943
Acceso en línea:
http://hdl.handle.net/11407/943
Palabra clave:
Limpieza de datos
calidad de datos
detección de duplicados
funciones de similitud
algoritmos fonéticos.
Rights
License
http://creativecommons.org/licenses/by-nc-sa/4.0/
id REPOUDEM2_c7271ec301be1d81ebfddf229553c09a
oai_identifier_str oai:repository.udem.edu.co:11407/943
network_acronym_str REPOUDEM2
network_name_str Repositorio UDEM
repository_id_str
spelling Amón, IvánMoreno, FranciscoEcheverri, Jaime2014-10-22T23:25:51Z2014-10-22T23:25:51Z2012-06-301692-3324http://hdl.handle.net/11407/9432248-4094reponame:Repositorio Institucional Universidad de Medellínrepourl:https://repository.udem.edu.co/instname:Universidad de MedellínCon frecuencia datos que deberían estar escritos de forma idéntica no lo están debido a errores ortográficos y tipográficos, variaciones en el orden de las palabras, uso de prefijos y sufijos, entre otros. Las técnicas fonéticas para detección de duplicados no están orientadas al idioma español, lo que dificulta la identificación y corrección de problemas como errores ortográficos en textos escritos en este idioma. En este artículo de investigación se propone un algoritmo denominado PhoneticSpanish parala detección de cadenas de texto duplicadas el cual considera la presencia de errores ortográficos en el idioma español. El algoritmo propuesto se comparó con nueve técnicas para la detección de duplicados. Los resultados del algoritmo fueron satisfactorios ya que se obtuvieron mejores resultados que las otras técnicas y evidencian oportunidades para mejorar el análisis de información en el idioma español.Electrónicoapplication/pdfspaUniversidad de MedellínFacultad de IngenieríasMedellínhttp://revistas.udem.edu.co/index.php/ingenierias/article/view/671Revista Ingenierías Universidad de Medellínhttp://creativecommons.org/licenses/by-nc-sa/4.0/Attribution-NonCommercial-ShareAlike 4.0 Internationalhttp://purl.org/coar/access_right/c_abf2Revista Ingenierías Universidad de Medellín; Vol. 11, núm. 20 (2012)2248-40941692-3324Limpieza de datoscalidad de datosdetección de duplicadosfunciones de similitudalgoritmos fonéticos.Algoritmo fonético para detección de cadenas de texto duplicadas en el idioma españolArticlehttp://purl.org/coar/resource_type/c_6501http://purl.org/coar/resource_type/c_2df8fbb1Artículo científicoinfo:eu-repo/semantics/articlehttp://purl.org/coar/version/c_970fb48d4fbd8a85Comunidad Universidad de MedellínTHUMBNAILAlgoritmo fonético para detección de cadenas de texto duplicadas en el idioma español.pdf.jpgAlgoritmo fonético para detección de cadenas de texto duplicadas en el idioma español.pdf.jpgIM Thumbnailimage/jpeg6838http://repository.udem.edu.co/bitstream/11407/943/3/Algoritmo%20fon%c3%a9tico%20para%20detecci%c3%b3n%20de%20cadenas%20de%20texto%20duplicadas%20en%20el%20idioma%20espa%c3%b1ol.pdf.jpgd37e0d031016e67bba57add3aeca3ed3MD53ORIGINALArticulo.htmltext/html574http://repository.udem.edu.co/bitstream/11407/943/1/Articulo.html4cd24c2e7d299bb8742fb33bce9bcd98MD51Algoritmo fonético para detección de cadenas de texto duplicadas en el idioma español.pdfAlgoritmo fonético para detección de cadenas de texto duplicadas en el idioma español.pdfTexto completoapplication/pdf376685http://repository.udem.edu.co/bitstream/11407/943/2/Algoritmo%20fon%c3%a9tico%20para%20detecci%c3%b3n%20de%20cadenas%20de%20texto%20duplicadas%20en%20el%20idioma%20espa%c3%b1ol.pdf8211e05a2764b7d5b055498a29c35381MD5211407/943oai:repository.udem.edu.co:11407/9432021-05-14 14:19:22.927Repositorio Institucional Universidad de Medellinrepositorio@udem.edu.co
dc.title.spa.fl_str_mv Algoritmo fonético para detección de cadenas de texto duplicadas en el idioma español
title Algoritmo fonético para detección de cadenas de texto duplicadas en el idioma español
spellingShingle Algoritmo fonético para detección de cadenas de texto duplicadas en el idioma español
Limpieza de datos
calidad de datos
detección de duplicados
funciones de similitud
algoritmos fonéticos.
title_short Algoritmo fonético para detección de cadenas de texto duplicadas en el idioma español
title_full Algoritmo fonético para detección de cadenas de texto duplicadas en el idioma español
title_fullStr Algoritmo fonético para detección de cadenas de texto duplicadas en el idioma español
title_full_unstemmed Algoritmo fonético para detección de cadenas de texto duplicadas en el idioma español
title_sort Algoritmo fonético para detección de cadenas de texto duplicadas en el idioma español
dc.creator.fl_str_mv Amón, Iván
Moreno, Francisco
Echeverri, Jaime
dc.contributor.author.none.fl_str_mv Amón, Iván
Moreno, Francisco
Echeverri, Jaime
dc.subject.spa.fl_str_mv Limpieza de datos
calidad de datos
detección de duplicados
funciones de similitud
algoritmos fonéticos.
topic Limpieza de datos
calidad de datos
detección de duplicados
funciones de similitud
algoritmos fonéticos.
description Con frecuencia datos que deberían estar escritos de forma idéntica no lo están debido a errores ortográficos y tipográficos, variaciones en el orden de las palabras, uso de prefijos y sufijos, entre otros. Las técnicas fonéticas para detección de duplicados no están orientadas al idioma español, lo que dificulta la identificación y corrección de problemas como errores ortográficos en textos escritos en este idioma. En este artículo de investigación se propone un algoritmo denominado PhoneticSpanish parala detección de cadenas de texto duplicadas el cual considera la presencia de errores ortográficos en el idioma español. El algoritmo propuesto se comparó con nueve técnicas para la detección de duplicados. Los resultados del algoritmo fueron satisfactorios ya que se obtuvieron mejores resultados que las otras técnicas y evidencian oportunidades para mejorar el análisis de información en el idioma español.
publishDate 2012
dc.date.created.none.fl_str_mv 2012-06-30
dc.date.accessioned.spa.fl_str_mv 2014-10-22T23:25:51Z
dc.date.available.spa.fl_str_mv 2014-10-22T23:25:51Z
dc.type.eng.fl_str_mv Article
dc.type.coar.fl_str_mv http://purl.org/coar/resource_type/c_2df8fbb1
dc.type.coarversion.fl_str_mv http://purl.org/coar/version/c_970fb48d4fbd8a85
dc.type.coar.none.fl_str_mv http://purl.org/coar/resource_type/c_6501
dc.type.local.spa.fl_str_mv Artículo científico
dc.type.driver.none.fl_str_mv info:eu-repo/semantics/article
format http://purl.org/coar/resource_type/c_6501
dc.identifier.issn.none.fl_str_mv 1692-3324
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/11407/943
dc.identifier.eissn.none.fl_str_mv 2248-4094
dc.identifier.reponame.spa.fl_str_mv reponame:Repositorio Institucional Universidad de Medellín
dc.identifier.repourl.none.fl_str_mv repourl:https://repository.udem.edu.co/
dc.identifier.instname.spa.fl_str_mv instname:Universidad de Medellín
identifier_str_mv 1692-3324
2248-4094
reponame:Repositorio Institucional Universidad de Medellín
repourl:https://repository.udem.edu.co/
instname:Universidad de Medellín
url http://hdl.handle.net/11407/943
dc.language.iso.none.fl_str_mv spa
language spa
dc.relation.uri.none.fl_str_mv http://revistas.udem.edu.co/index.php/ingenierias/article/view/671
dc.relation.ispartofjournal.spa.fl_str_mv Revista Ingenierías Universidad de Medellín
dc.rights.coar.fl_str_mv http://purl.org/coar/access_right/c_abf2
dc.rights.uri.*.fl_str_mv http://creativecommons.org/licenses/by-nc-sa/4.0/
dc.rights.creativecommons.*.fl_str_mv Attribution-NonCommercial-ShareAlike 4.0 International
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-sa/4.0/
Attribution-NonCommercial-ShareAlike 4.0 International
http://purl.org/coar/access_right/c_abf2
dc.format.medium.spa.fl_str_mv Electrónico
dc.format.mimetype.none.fl_str_mv application/pdf
dc.publisher.spa.fl_str_mv Universidad de Medellín
dc.publisher.faculty.spa.fl_str_mv Facultad de Ingenierías
dc.publisher.place.spa.fl_str_mv Medellín
dc.source.spa.fl_str_mv Revista Ingenierías Universidad de Medellín; Vol. 11, núm. 20 (2012)
2248-4094
1692-3324
institution Universidad de Medellín
bitstream.url.fl_str_mv http://repository.udem.edu.co/bitstream/11407/943/3/Algoritmo%20fon%c3%a9tico%20para%20detecci%c3%b3n%20de%20cadenas%20de%20texto%20duplicadas%20en%20el%20idioma%20espa%c3%b1ol.pdf.jpg
http://repository.udem.edu.co/bitstream/11407/943/1/Articulo.html
http://repository.udem.edu.co/bitstream/11407/943/2/Algoritmo%20fon%c3%a9tico%20para%20detecci%c3%b3n%20de%20cadenas%20de%20texto%20duplicadas%20en%20el%20idioma%20espa%c3%b1ol.pdf
bitstream.checksum.fl_str_mv d37e0d031016e67bba57add3aeca3ed3
4cd24c2e7d299bb8742fb33bce9bcd98
8211e05a2764b7d5b055498a29c35381
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositorio Institucional Universidad de Medellin
repository.mail.fl_str_mv repositorio@udem.edu.co
_version_ 1808481167562768384