Algoritmo fonético para detección de cadenas de texto duplicadas en el idioma español

Con frecuencia datos que deberían estar escritos de forma idéntica no lo están debido a errores ortográficos y tipográficos, variaciones en el orden de las palabras, uso de prefijos y sufijos, entre otros. Las técnicas fonéticas para detección de duplicados no están orientadas al idioma español, lo...

Full description

Autores:: Amón, Iván
Moreno, Francisco
Echeverri, Jaime

Tipo de recurso:: Article of journal

Fecha de publicación:: 2012

Institución:: Universidad de Medellín

Repositorio:: Repositorio UDEM

Idioma:: spa

id	REPOUDEM2_c7271ec301be1d81ebfddf229553c09a
oai_identifier_str	oai:repository.udem.edu.co:11407/943
network_acronym_str	REPOUDEM2
network_name_str	Repositorio UDEM
repository_id_str
spelling	Amón, IvánMoreno, FranciscoEcheverri, Jaime2014-10-22T23:25:51Z2014-10-22T23:25:51Z2012-06-301692-3324http://hdl.handle.net/11407/9432248-4094reponame:Repositorio Institucional Universidad de Medellínrepourl:https://repository.udem.edu.co/instname:Universidad de MedellínCon frecuencia datos que deberían estar escritos de forma idéntica no lo están debido a errores ortográficos y tipográficos, variaciones en el orden de las palabras, uso de prefijos y sufijos, entre otros. Las técnicas fonéticas para detección de duplicados no están orientadas al idioma español, lo que dificulta la identificación y corrección de problemas como errores ortográficos en textos escritos en este idioma. En este artículo de investigación se propone un algoritmo denominado PhoneticSpanish parala detección de cadenas de texto duplicadas el cual considera la presencia de errores ortográficos en el idioma español. El algoritmo propuesto se comparó con nueve técnicas para la detección de duplicados. Los resultados del algoritmo fueron satisfactorios ya que se obtuvieron mejores resultados que las otras técnicas y evidencian oportunidades para mejorar el análisis de información en el idioma español.Electrónicoapplication/pdfspaUniversidad de MedellínFacultad de IngenieríasMedellínhttp://revistas.udem.edu.co/index.php/ingenierias/article/view/671Revista Ingenierías Universidad de Medellínhttp://creativecommons.org/licenses/by-nc-sa/4.0/Attribution-NonCommercial-ShareAlike 4.0 Internationalhttp://purl.org/coar/access_right/c_abf2Revista Ingenierías Universidad de Medellín; Vol. 11, núm. 20 (2012)2248-40941692-3324Limpieza de datoscalidad de datosdetección de duplicadosfunciones de similitudalgoritmos fonéticos.Algoritmo fonético para detección de cadenas de texto duplicadas en el idioma españolArticlehttp://purl.org/coar/resource_type/c_6501http://purl.org/coar/resource_type/c_2df8fbb1Artículo científicoinfo:eu-repo/semantics/articlehttp://purl.org/coar/version/c_970fb48d4fbd8a85Comunidad Universidad de MedellínTHUMBNAILAlgoritmo fonético para detección de cadenas de texto duplicadas en el idioma español.pdf.jpgAlgoritmo fonético para detección de cadenas de texto duplicadas en el idioma español.pdf.jpgIM Thumbnailimage/jpeg6838http://repository.udem.edu.co/bitstream/11407/943/3/Algoritmo%20fon%c3%a9tico%20para%20detecci%c3%b3n%20de%20cadenas%20de%20texto%20duplicadas%20en%20el%20idioma%20espa%c3%b1ol.pdf.jpgd37e0d031016e67bba57add3aeca3ed3MD53ORIGINALArticulo.htmltext/html574http://repository.udem.edu.co/bitstream/11407/943/1/Articulo.html4cd24c2e7d299bb8742fb33bce9bcd98MD51Algoritmo fonético para detección de cadenas de texto duplicadas en el idioma español.pdfAlgoritmo fonético para detección de cadenas de texto duplicadas en el idioma español.pdfTexto completoapplication/pdf376685http://repository.udem.edu.co/bitstream/11407/943/2/Algoritmo%20fon%c3%a9tico%20para%20detecci%c3%b3n%20de%20cadenas%20de%20texto%20duplicadas%20en%20el%20idioma%20espa%c3%b1ol.pdf8211e05a2764b7d5b055498a29c35381MD5211407/943oai:repository.udem.edu.co:11407/9432021-05-14 14:19:22.927Repositorio Institucional Universidad de Medellinrepositorio@udem.edu.co
dc.title.spa.fl_str_mv	Algoritmo fonético para detección de cadenas de texto duplicadas en el idioma español
title	Algoritmo fonético para detección de cadenas de texto duplicadas en el idioma español
spellingShingle	Algoritmo fonético para detección de cadenas de texto duplicadas en el idioma español Limpieza de datos calidad de datos detección de duplicados funciones de similitud algoritmos fonéticos.
title_short	Algoritmo fonético para detección de cadenas de texto duplicadas en el idioma español
title_full	Algoritmo fonético para detección de cadenas de texto duplicadas en el idioma español
title_fullStr	Algoritmo fonético para detección de cadenas de texto duplicadas en el idioma español
title_full_unstemmed	Algoritmo fonético para detección de cadenas de texto duplicadas en el idioma español
title_sort	Algoritmo fonético para detección de cadenas de texto duplicadas en el idioma español
dc.creator.fl_str_mv	Amón, Iván Moreno, Francisco Echeverri, Jaime
dc.contributor.author.none.fl_str_mv	Amón, Iván Moreno, Francisco Echeverri, Jaime
dc.subject.spa.fl_str_mv	Limpieza de datos calidad de datos detección de duplicados funciones de similitud algoritmos fonéticos.
topic	Limpieza de datos calidad de datos detección de duplicados funciones de similitud algoritmos fonéticos.
description	Con frecuencia datos que deberían estar escritos de forma idéntica no lo están debido a errores ortográficos y tipográficos, variaciones en el orden de las palabras, uso de prefijos y sufijos, entre otros. Las técnicas fonéticas para detección de duplicados no están orientadas al idioma español, lo que dificulta la identificación y corrección de problemas como errores ortográficos en textos escritos en este idioma. En este artículo de investigación se propone un algoritmo denominado PhoneticSpanish parala detección de cadenas de texto duplicadas el cual considera la presencia de errores ortográficos en el idioma español. El algoritmo propuesto se comparó con nueve técnicas para la detección de duplicados. Los resultados del algoritmo fueron satisfactorios ya que se obtuvieron mejores resultados que las otras técnicas y evidencian oportunidades para mejorar el análisis de información en el idioma español.
publishDate	2012
dc.date.created.none.fl_str_mv	2012-06-30
dc.date.accessioned.spa.fl_str_mv	2014-10-22T23:25:51Z
dc.date.available.spa.fl_str_mv	2014-10-22T23:25:51Z
dc.type.eng.fl_str_mv	Article
dc.type.coar.fl_str_mv	http://purl.org/coar/resource_type/c_2df8fbb1
dc.type.coarversion.fl_str_mv	http://purl.org/coar/version/c_970fb48d4fbd8a85
dc.type.coar.none.fl_str_mv	http://purl.org/coar/resource_type/c_6501
dc.type.local.spa.fl_str_mv	Artículo científico
dc.type.driver.none.fl_str_mv	info:eu-repo/semantics/article
format	http://purl.org/coar/resource_type/c_6501
dc.identifier.issn.none.fl_str_mv	1692-3324
dc.identifier.uri.none.fl_str_mv	http://hdl.handle.net/11407/943
dc.identifier.eissn.none.fl_str_mv	2248-4094
dc.identifier.reponame.spa.fl_str_mv	reponame:Repositorio Institucional Universidad de Medellín
dc.identifier.repourl.none.fl_str_mv	repourl:https://repository.udem.edu.co/
dc.identifier.instname.spa.fl_str_mv	instname:Universidad de Medellín
identifier_str_mv	1692-3324 2248-4094 reponame:Repositorio Institucional Universidad de Medellín repourl:https://repository.udem.edu.co/ instname:Universidad de Medellín
url	http://hdl.handle.net/11407/943
dc.language.iso.none.fl_str_mv	spa
language	spa
dc.relation.uri.none.fl_str_mv	http://revistas.udem.edu.co/index.php/ingenierias/article/view/671
dc.relation.ispartofjournal.spa.fl_str_mv	Revista Ingenierías Universidad de Medellín
dc.rights.coar.fl_str_mv	http://purl.org/coar/access_right/c_abf2
dc.rights.uri.*.fl_str_mv	http://creativecommons.org/licenses/by-nc-sa/4.0/
dc.rights.creativecommons.*.fl_str_mv	Attribution-NonCommercial-ShareAlike 4.0 International
rights_invalid_str_mv	http://creativecommons.org/licenses/by-nc-sa/4.0/ Attribution-NonCommercial-ShareAlike 4.0 International http://purl.org/coar/access_right/c_abf2
dc.format.medium.spa.fl_str_mv	Electrónico
dc.format.mimetype.none.fl_str_mv	application/pdf
dc.publisher.spa.fl_str_mv	Universidad de Medellín
dc.publisher.faculty.spa.fl_str_mv	Facultad de Ingenierías
dc.publisher.place.spa.fl_str_mv	Medellín
dc.source.spa.fl_str_mv	Revista Ingenierías Universidad de Medellín; Vol. 11, núm. 20 (2012) 2248-4094 1692-3324
institution	Universidad de Medellín
bitstream.url.fl_str_mv	http://repository.udem.edu.co/bitstream/11407/943/3/Algoritmo%20fon%c3%a9tico%20para%20detecci%c3%b3n%20de%20cadenas%20de%20texto%20duplicadas%20en%20el%20idioma%20espa%c3%b1ol.pdf.jpg http://repository.udem.edu.co/bitstream/11407/943/1/Articulo.html http://repository.udem.edu.co/bitstream/11407/943/2/Algoritmo%20fon%c3%a9tico%20para%20detecci%c3%b3n%20de%20cadenas%20de%20texto%20duplicadas%20en%20el%20idioma%20espa%c3%b1ol.pdf
bitstream.checksum.fl_str_mv	d37e0d031016e67bba57add3aeca3ed3 4cd24c2e7d299bb8742fb33bce9bcd98 8211e05a2764b7d5b055498a29c35381
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5
repository.name.fl_str_mv	Repositorio Institucional Universidad de Medellin
repository.mail.fl_str_mv	repositorio@udem.edu.co
_version_	1851059155851280384

Algoritmo fonético para detección de cadenas de texto duplicadas en el idioma español

Publicaciones similares