Algoritmo fonético para detección de cadenas de texto duplicadas en el idioma español
Con frecuencia datos que deberían estar escritos de forma idéntica no lo están debido a errores ortográficos y tipográficos, variaciones en el orden de las palabras, uso de prefijos y sufijos, entre otros. Las técnicas fonéticas para detección de duplicados no están orientadas al idioma español, lo...
- Autores:
-
Amón, Iván
Moreno, Francisco
Echeverri, Jaime
- Tipo de recurso:
- Article of journal
- Fecha de publicación:
- 2012
- Institución:
- Universidad de Medellín
- Repositorio:
- Repositorio UDEM
- Idioma:
- spa
- OAI Identifier:
- oai:repository.udem.edu.co:11407/943
- Acceso en línea:
- http://hdl.handle.net/11407/943
- Palabra clave:
- Limpieza de datos
calidad de datos
detección de duplicados
funciones de similitud
algoritmos fonéticos.
- Rights
- License
- http://creativecommons.org/licenses/by-nc-sa/4.0/
id |
REPOUDEM2_c7271ec301be1d81ebfddf229553c09a |
---|---|
oai_identifier_str |
oai:repository.udem.edu.co:11407/943 |
network_acronym_str |
REPOUDEM2 |
network_name_str |
Repositorio UDEM |
repository_id_str |
|
spelling |
Amón, IvánMoreno, FranciscoEcheverri, Jaime2014-10-22T23:25:51Z2014-10-22T23:25:51Z2012-06-301692-3324http://hdl.handle.net/11407/9432248-4094reponame:Repositorio Institucional Universidad de Medellínrepourl:https://repository.udem.edu.co/instname:Universidad de MedellínCon frecuencia datos que deberían estar escritos de forma idéntica no lo están debido a errores ortográficos y tipográficos, variaciones en el orden de las palabras, uso de prefijos y sufijos, entre otros. Las técnicas fonéticas para detección de duplicados no están orientadas al idioma español, lo que dificulta la identificación y corrección de problemas como errores ortográficos en textos escritos en este idioma. En este artículo de investigación se propone un algoritmo denominado PhoneticSpanish parala detección de cadenas de texto duplicadas el cual considera la presencia de errores ortográficos en el idioma español. El algoritmo propuesto se comparó con nueve técnicas para la detección de duplicados. Los resultados del algoritmo fueron satisfactorios ya que se obtuvieron mejores resultados que las otras técnicas y evidencian oportunidades para mejorar el análisis de información en el idioma español.Electrónicoapplication/pdfspaUniversidad de MedellínFacultad de IngenieríasMedellínhttp://revistas.udem.edu.co/index.php/ingenierias/article/view/671Revista Ingenierías Universidad de Medellínhttp://creativecommons.org/licenses/by-nc-sa/4.0/Attribution-NonCommercial-ShareAlike 4.0 Internationalhttp://purl.org/coar/access_right/c_abf2Revista Ingenierías Universidad de Medellín; Vol. 11, núm. 20 (2012)2248-40941692-3324Limpieza de datoscalidad de datosdetección de duplicadosfunciones de similitudalgoritmos fonéticos.Algoritmo fonético para detección de cadenas de texto duplicadas en el idioma españolArticlehttp://purl.org/coar/resource_type/c_6501http://purl.org/coar/resource_type/c_2df8fbb1Artículo científicoinfo:eu-repo/semantics/articlehttp://purl.org/coar/version/c_970fb48d4fbd8a85Comunidad Universidad de MedellínTHUMBNAILAlgoritmo fonético para detección de cadenas de texto duplicadas en el idioma español.pdf.jpgAlgoritmo fonético para detección de cadenas de texto duplicadas en el idioma español.pdf.jpgIM Thumbnailimage/jpeg6838http://repository.udem.edu.co/bitstream/11407/943/3/Algoritmo%20fon%c3%a9tico%20para%20detecci%c3%b3n%20de%20cadenas%20de%20texto%20duplicadas%20en%20el%20idioma%20espa%c3%b1ol.pdf.jpgd37e0d031016e67bba57add3aeca3ed3MD53ORIGINALArticulo.htmltext/html574http://repository.udem.edu.co/bitstream/11407/943/1/Articulo.html4cd24c2e7d299bb8742fb33bce9bcd98MD51Algoritmo fonético para detección de cadenas de texto duplicadas en el idioma español.pdfAlgoritmo fonético para detección de cadenas de texto duplicadas en el idioma español.pdfTexto completoapplication/pdf376685http://repository.udem.edu.co/bitstream/11407/943/2/Algoritmo%20fon%c3%a9tico%20para%20detecci%c3%b3n%20de%20cadenas%20de%20texto%20duplicadas%20en%20el%20idioma%20espa%c3%b1ol.pdf8211e05a2764b7d5b055498a29c35381MD5211407/943oai:repository.udem.edu.co:11407/9432021-05-14 14:19:22.927Repositorio Institucional Universidad de Medellinrepositorio@udem.edu.co |
dc.title.spa.fl_str_mv |
Algoritmo fonético para detección de cadenas de texto duplicadas en el idioma español |
title |
Algoritmo fonético para detección de cadenas de texto duplicadas en el idioma español |
spellingShingle |
Algoritmo fonético para detección de cadenas de texto duplicadas en el idioma español Limpieza de datos calidad de datos detección de duplicados funciones de similitud algoritmos fonéticos. |
title_short |
Algoritmo fonético para detección de cadenas de texto duplicadas en el idioma español |
title_full |
Algoritmo fonético para detección de cadenas de texto duplicadas en el idioma español |
title_fullStr |
Algoritmo fonético para detección de cadenas de texto duplicadas en el idioma español |
title_full_unstemmed |
Algoritmo fonético para detección de cadenas de texto duplicadas en el idioma español |
title_sort |
Algoritmo fonético para detección de cadenas de texto duplicadas en el idioma español |
dc.creator.fl_str_mv |
Amón, Iván Moreno, Francisco Echeverri, Jaime |
dc.contributor.author.none.fl_str_mv |
Amón, Iván Moreno, Francisco Echeverri, Jaime |
dc.subject.spa.fl_str_mv |
Limpieza de datos calidad de datos detección de duplicados funciones de similitud algoritmos fonéticos. |
topic |
Limpieza de datos calidad de datos detección de duplicados funciones de similitud algoritmos fonéticos. |
description |
Con frecuencia datos que deberían estar escritos de forma idéntica no lo están debido a errores ortográficos y tipográficos, variaciones en el orden de las palabras, uso de prefijos y sufijos, entre otros. Las técnicas fonéticas para detección de duplicados no están orientadas al idioma español, lo que dificulta la identificación y corrección de problemas como errores ortográficos en textos escritos en este idioma. En este artículo de investigación se propone un algoritmo denominado PhoneticSpanish parala detección de cadenas de texto duplicadas el cual considera la presencia de errores ortográficos en el idioma español. El algoritmo propuesto se comparó con nueve técnicas para la detección de duplicados. Los resultados del algoritmo fueron satisfactorios ya que se obtuvieron mejores resultados que las otras técnicas y evidencian oportunidades para mejorar el análisis de información en el idioma español. |
publishDate |
2012 |
dc.date.created.none.fl_str_mv |
2012-06-30 |
dc.date.accessioned.spa.fl_str_mv |
2014-10-22T23:25:51Z |
dc.date.available.spa.fl_str_mv |
2014-10-22T23:25:51Z |
dc.type.eng.fl_str_mv |
Article |
dc.type.coar.fl_str_mv |
http://purl.org/coar/resource_type/c_2df8fbb1 |
dc.type.coarversion.fl_str_mv |
http://purl.org/coar/version/c_970fb48d4fbd8a85 |
dc.type.coar.none.fl_str_mv |
http://purl.org/coar/resource_type/c_6501 |
dc.type.local.spa.fl_str_mv |
Artículo científico |
dc.type.driver.none.fl_str_mv |
info:eu-repo/semantics/article |
format |
http://purl.org/coar/resource_type/c_6501 |
dc.identifier.issn.none.fl_str_mv |
1692-3324 |
dc.identifier.uri.none.fl_str_mv |
http://hdl.handle.net/11407/943 |
dc.identifier.eissn.none.fl_str_mv |
2248-4094 |
dc.identifier.reponame.spa.fl_str_mv |
reponame:Repositorio Institucional Universidad de Medellín |
dc.identifier.repourl.none.fl_str_mv |
repourl:https://repository.udem.edu.co/ |
dc.identifier.instname.spa.fl_str_mv |
instname:Universidad de Medellín |
identifier_str_mv |
1692-3324 2248-4094 reponame:Repositorio Institucional Universidad de Medellín repourl:https://repository.udem.edu.co/ instname:Universidad de Medellín |
url |
http://hdl.handle.net/11407/943 |
dc.language.iso.none.fl_str_mv |
spa |
language |
spa |
dc.relation.uri.none.fl_str_mv |
http://revistas.udem.edu.co/index.php/ingenierias/article/view/671 |
dc.relation.ispartofjournal.spa.fl_str_mv |
Revista Ingenierías Universidad de Medellín |
dc.rights.coar.fl_str_mv |
http://purl.org/coar/access_right/c_abf2 |
dc.rights.uri.*.fl_str_mv |
http://creativecommons.org/licenses/by-nc-sa/4.0/ |
dc.rights.creativecommons.*.fl_str_mv |
Attribution-NonCommercial-ShareAlike 4.0 International |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-sa/4.0/ Attribution-NonCommercial-ShareAlike 4.0 International http://purl.org/coar/access_right/c_abf2 |
dc.format.medium.spa.fl_str_mv |
Electrónico |
dc.format.mimetype.none.fl_str_mv |
application/pdf |
dc.publisher.spa.fl_str_mv |
Universidad de Medellín |
dc.publisher.faculty.spa.fl_str_mv |
Facultad de Ingenierías |
dc.publisher.place.spa.fl_str_mv |
Medellín |
dc.source.spa.fl_str_mv |
Revista Ingenierías Universidad de Medellín; Vol. 11, núm. 20 (2012) 2248-4094 1692-3324 |
institution |
Universidad de Medellín |
bitstream.url.fl_str_mv |
http://repository.udem.edu.co/bitstream/11407/943/3/Algoritmo%20fon%c3%a9tico%20para%20detecci%c3%b3n%20de%20cadenas%20de%20texto%20duplicadas%20en%20el%20idioma%20espa%c3%b1ol.pdf.jpg http://repository.udem.edu.co/bitstream/11407/943/1/Articulo.html http://repository.udem.edu.co/bitstream/11407/943/2/Algoritmo%20fon%c3%a9tico%20para%20detecci%c3%b3n%20de%20cadenas%20de%20texto%20duplicadas%20en%20el%20idioma%20espa%c3%b1ol.pdf |
bitstream.checksum.fl_str_mv |
d37e0d031016e67bba57add3aeca3ed3 4cd24c2e7d299bb8742fb33bce9bcd98 8211e05a2764b7d5b055498a29c35381 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositorio Institucional Universidad de Medellin |
repository.mail.fl_str_mv |
repositorio@udem.edu.co |
_version_ |
1814159163827159040 |