Definition and solution of a new approximate variant of the order preserving matching problem

En esta tesis se combinan dos problemas de búsqueda de cadenas: la búsqueda aproximada de cadenas bajo parámetros δγ, y el emparejamiento con preservación de orden. Uno permite un nivel de error en la búsqueda, mientras que el otro considera la estructura interna de las cadenas en lugar de sus valor...

Full description

Autores:
Niquefa Velasquez, Rafael
Tipo de recurso:
Fecha de publicación:
2017
Institución:
Universidad Nacional de Colombia
Repositorio:
Universidad Nacional de Colombia
Idioma:
spa
OAI Identifier:
oai:repositorio.unal.edu.co:unal/59919
Acceso en línea:
https://repositorio.unal.edu.co/handle/unal/59919
http://bdigital.unal.edu.co/57743/
Palabra clave:
0 Generalidades / Computer science, information and general works
02 Bibliotecología y ciencias de la información / Library and information sciences
5 Ciencias naturales y matemáticas / Science
Stringology
Order Preserving Pattern Matching
Approximate Matching
Delta Gamma Matching
Búsqueda de cadenas
Análisis experimental de algoritmos
Árbol de Fenwick
Árbol indexado binario
Árbol de segmentos
Rights
openAccess
License
Atribución-NoComercial 4.0 Internacional
id UNACIONAL2_f06c451fafc66e6a66b4e51859cb6886
oai_identifier_str oai:repositorio.unal.edu.co:unal/59919
network_acronym_str UNACIONAL2
network_name_str Universidad Nacional de Colombia
repository_id_str
spelling Atribución-NoComercial 4.0 InternacionalDerechos reservados - Universidad Nacional de Colombiahttp://creativecommons.org/licenses/by-nc/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Mendivelso, JuanGerman, HernandezNiquefa Velasquez, Rafael843f98cc-eeee-44ed-a911-79b7e1dda2683002019-07-02T17:07:07Z2019-07-02T17:07:07Z2017https://repositorio.unal.edu.co/handle/unal/59919http://bdigital.unal.edu.co/57743/En esta tesis se combinan dos problemas de búsqueda de cadenas: la búsqueda aproximada de cadenas bajo parámetros δγ, y el emparejamiento con preservación de orden. Uno permite un nivel de error en la búsqueda, mientras que el otro considera la estructura interna de las cadenas en lugar de sus valores absolutos. Se define formalmente el Emparejamiento con preservación de orden bajo distancias δγ. Se diseñaron e implementaron en C++ cuatro algoritmos que resuelven el problema, y una configuración experimental para compararlos. El algoritmo más simple, tiene complejidad O(nm lg m). El segundo tiene una complejidad de O(nm). El tercero y el cuarto se basan en estructuras de datos: árbol de segmentos y árbol de fenwick respectivamente. Ambos tienen complejidad O(nm lg n). Los resultados experimentales muestran que los algoritmos basados en estructuras de datos tiene un mejor rendimiento en muchos casos. El de mejor rendimiento experimental es del basado en el árbol Fenwick, seguido por el basado en árboles de segmentos. Estos resultados se pueden explicar debido a su complejidad Ω(n lg n). Se muestran aplicaciones en música y finanzas.Abstract: In this thesis we combine two string searching related problems: the approximate string matching under parameters δ and γ, and the order preserving matching problem. Orderpreserving matching regards the internal structure of the strings rather than their absolute values while matching under δ and γ distances permit a level of error. We formally define the δγ–order-preserving matching problem. We designed and implement in C++ four algorithms that solve the proposed problem and an experimental setup to compare them. The first algorithm is the naive algorithm with complexity Θ(nm lg m) time. The second has a complexity of Θ(nm) time. The third and four algorithms are based on the segment tree and Fenwick tree data structures, respectively, and both have O(nm log n) time complexities. The data structure based algorithms show better experimental performance due to their better lower bound of Ω(n lg n) complexity. We show applications in music and finance.Maestríaapplication/pdfspaUniversidad Nacional de Colombia Sede Bogotá Facultad de Ingeniería Departamento de Ingeniería de Sistemas e Industrial Ingeniería de SistemasIngeniería de SistemasNiquefa Velasquez, Rafael (2017) Definition and solution of a new approximate variant of the order preserving matching problem. Maestría thesis, Universidad Nacional de Colombia - Sede Bogotá.0 Generalidades / Computer science, information and general works02 Bibliotecología y ciencias de la información / Library and information sciences5 Ciencias naturales y matemáticas / ScienceStringologyOrder Preserving Pattern MatchingApproximate MatchingDelta Gamma MatchingBúsqueda de cadenasAnálisis experimental de algoritmosÁrbol de FenwickÁrbol indexado binarioÁrbol de segmentosDefinition and solution of a new approximate variant of the order preserving matching problemTrabajo de grado - Maestríainfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/acceptedVersionTexthttp://purl.org/redcol/resource_type/TMORIGINALmsc-tesis-rafael.pdfapplication/pdf1497917https://repositorio.unal.edu.co/bitstream/unal/59919/1/msc-tesis-rafael.pdf621baca04e6a3f2e214cbce7b64bbf6dMD51THUMBNAILmsc-tesis-rafael.pdf.jpgmsc-tesis-rafael.pdf.jpgGenerated Thumbnailimage/jpeg4393https://repositorio.unal.edu.co/bitstream/unal/59919/2/msc-tesis-rafael.pdf.jpgadd33b061099a237ae1a038047fa2b3bMD52unal/59919oai:repositorio.unal.edu.co:unal/599192024-04-10 23:10:03.022Repositorio Institucional Universidad Nacional de Colombiarepositorio_nal@unal.edu.co
dc.title.spa.fl_str_mv Definition and solution of a new approximate variant of the order preserving matching problem
title Definition and solution of a new approximate variant of the order preserving matching problem
spellingShingle Definition and solution of a new approximate variant of the order preserving matching problem
0 Generalidades / Computer science, information and general works
02 Bibliotecología y ciencias de la información / Library and information sciences
5 Ciencias naturales y matemáticas / Science
Stringology
Order Preserving Pattern Matching
Approximate Matching
Delta Gamma Matching
Búsqueda de cadenas
Análisis experimental de algoritmos
Árbol de Fenwick
Árbol indexado binario
Árbol de segmentos
title_short Definition and solution of a new approximate variant of the order preserving matching problem
title_full Definition and solution of a new approximate variant of the order preserving matching problem
title_fullStr Definition and solution of a new approximate variant of the order preserving matching problem
title_full_unstemmed Definition and solution of a new approximate variant of the order preserving matching problem
title_sort Definition and solution of a new approximate variant of the order preserving matching problem
dc.creator.fl_str_mv Niquefa Velasquez, Rafael
dc.contributor.author.spa.fl_str_mv Niquefa Velasquez, Rafael
dc.contributor.spa.fl_str_mv Mendivelso, Juan
German, Hernandez
dc.subject.ddc.spa.fl_str_mv 0 Generalidades / Computer science, information and general works
02 Bibliotecología y ciencias de la información / Library and information sciences
5 Ciencias naturales y matemáticas / Science
topic 0 Generalidades / Computer science, information and general works
02 Bibliotecología y ciencias de la información / Library and information sciences
5 Ciencias naturales y matemáticas / Science
Stringology
Order Preserving Pattern Matching
Approximate Matching
Delta Gamma Matching
Búsqueda de cadenas
Análisis experimental de algoritmos
Árbol de Fenwick
Árbol indexado binario
Árbol de segmentos
dc.subject.proposal.spa.fl_str_mv Stringology
Order Preserving Pattern Matching
Approximate Matching
Delta Gamma Matching
Búsqueda de cadenas
Análisis experimental de algoritmos
Árbol de Fenwick
Árbol indexado binario
Árbol de segmentos
description En esta tesis se combinan dos problemas de búsqueda de cadenas: la búsqueda aproximada de cadenas bajo parámetros δγ, y el emparejamiento con preservación de orden. Uno permite un nivel de error en la búsqueda, mientras que el otro considera la estructura interna de las cadenas en lugar de sus valores absolutos. Se define formalmente el Emparejamiento con preservación de orden bajo distancias δγ. Se diseñaron e implementaron en C++ cuatro algoritmos que resuelven el problema, y una configuración experimental para compararlos. El algoritmo más simple, tiene complejidad O(nm lg m). El segundo tiene una complejidad de O(nm). El tercero y el cuarto se basan en estructuras de datos: árbol de segmentos y árbol de fenwick respectivamente. Ambos tienen complejidad O(nm lg n). Los resultados experimentales muestran que los algoritmos basados en estructuras de datos tiene un mejor rendimiento en muchos casos. El de mejor rendimiento experimental es del basado en el árbol Fenwick, seguido por el basado en árboles de segmentos. Estos resultados se pueden explicar debido a su complejidad Ω(n lg n). Se muestran aplicaciones en música y finanzas.
publishDate 2017
dc.date.issued.spa.fl_str_mv 2017
dc.date.accessioned.spa.fl_str_mv 2019-07-02T17:07:07Z
dc.date.available.spa.fl_str_mv 2019-07-02T17:07:07Z
dc.type.spa.fl_str_mv Trabajo de grado - Maestría
dc.type.driver.spa.fl_str_mv info:eu-repo/semantics/masterThesis
dc.type.version.spa.fl_str_mv info:eu-repo/semantics/acceptedVersion
dc.type.content.spa.fl_str_mv Text
dc.type.redcol.spa.fl_str_mv http://purl.org/redcol/resource_type/TM
status_str acceptedVersion
dc.identifier.uri.none.fl_str_mv https://repositorio.unal.edu.co/handle/unal/59919
dc.identifier.eprints.spa.fl_str_mv http://bdigital.unal.edu.co/57743/
url https://repositorio.unal.edu.co/handle/unal/59919
http://bdigital.unal.edu.co/57743/
dc.language.iso.spa.fl_str_mv spa
language spa
dc.relation.ispartof.spa.fl_str_mv Universidad Nacional de Colombia Sede Bogotá Facultad de Ingeniería Departamento de Ingeniería de Sistemas e Industrial Ingeniería de Sistemas
Ingeniería de Sistemas
dc.relation.references.spa.fl_str_mv Niquefa Velasquez, Rafael (2017) Definition and solution of a new approximate variant of the order preserving matching problem. Maestría thesis, Universidad Nacional de Colombia - Sede Bogotá.
dc.rights.spa.fl_str_mv Derechos reservados - Universidad Nacional de Colombia
dc.rights.coar.fl_str_mv http://purl.org/coar/access_right/c_abf2
dc.rights.license.spa.fl_str_mv Atribución-NoComercial 4.0 Internacional
dc.rights.uri.spa.fl_str_mv http://creativecommons.org/licenses/by-nc/4.0/
dc.rights.accessrights.spa.fl_str_mv info:eu-repo/semantics/openAccess
rights_invalid_str_mv Atribución-NoComercial 4.0 Internacional
Derechos reservados - Universidad Nacional de Colombia
http://creativecommons.org/licenses/by-nc/4.0/
http://purl.org/coar/access_right/c_abf2
eu_rights_str_mv openAccess
dc.format.mimetype.spa.fl_str_mv application/pdf
institution Universidad Nacional de Colombia
bitstream.url.fl_str_mv https://repositorio.unal.edu.co/bitstream/unal/59919/1/msc-tesis-rafael.pdf
https://repositorio.unal.edu.co/bitstream/unal/59919/2/msc-tesis-rafael.pdf.jpg
bitstream.checksum.fl_str_mv 621baca04e6a3f2e214cbce7b64bbf6d
add33b061099a237ae1a038047fa2b3b
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositorio Institucional Universidad Nacional de Colombia
repository.mail.fl_str_mv repositorio_nal@unal.edu.co
_version_ 1812169086477533184