Búsqueda flexible y eficiente en texto con paralelismo de Bits

El emparejamiento de secuencias se puede entender como el problema de encontrar un patrón con una cierta característica dentro de una secuencia dada de símbolos. El caso más simple es el de encontrar una secuencia dada dentro de la otra secuencia más larga. Este es uno de los más viejos y más penetr...

Full description

Autores:
Pinzón Ardila, Yoan José
Tipo de recurso:
Investigation report
Fecha de publicación:
2002
Institución:
Universidad Autónoma de Bucaramanga - UNAB
Repositorio:
Repositorio UNAB
Idioma:
spa
OAI Identifier:
oai:repository.unab.edu.co:20.500.12749/23884
Acceso en línea:
http://hdl.handle.net/20.500.12749/23884
Palabra clave:
Algorithm design and analysis
Parallelism with bits
Algorithms
Mathematical models
Programming languages ​​(Electronic computers)
Electronic data processing
Algoritmos
Modelos matemáticos
Lenguajes de programación (Computadores electrónicos)
Procesamiento electrónico de datos
Diseño y análisis de algoritmos
Paralelismo con bits
Rights
License
http://creativecommons.org/licenses/by-nc-nd/2.5/co/
id UNAB2_00ef9ec9988cc2f973f266dd631da2b3
oai_identifier_str oai:repository.unab.edu.co:20.500.12749/23884
network_acronym_str UNAB2
network_name_str Repositorio UNAB
repository_id_str
dc.title.spa.fl_str_mv Búsqueda flexible y eficiente en texto con paralelismo de Bits
dc.title.translated.spa.fl_str_mv Flexible and efficient search in text with Bits parallelism
title Búsqueda flexible y eficiente en texto con paralelismo de Bits
spellingShingle Búsqueda flexible y eficiente en texto con paralelismo de Bits
Algorithm design and analysis
Parallelism with bits
Algorithms
Mathematical models
Programming languages ​​(Electronic computers)
Electronic data processing
Algoritmos
Modelos matemáticos
Lenguajes de programación (Computadores electrónicos)
Procesamiento electrónico de datos
Diseño y análisis de algoritmos
Paralelismo con bits
title_short Búsqueda flexible y eficiente en texto con paralelismo de Bits
title_full Búsqueda flexible y eficiente en texto con paralelismo de Bits
title_fullStr Búsqueda flexible y eficiente en texto con paralelismo de Bits
title_full_unstemmed Búsqueda flexible y eficiente en texto con paralelismo de Bits
title_sort Búsqueda flexible y eficiente en texto con paralelismo de Bits
dc.creator.fl_str_mv Pinzón Ardila, Yoan José
dc.contributor.author.none.fl_str_mv Pinzón Ardila, Yoan José
dc.subject.keywords.spa.fl_str_mv Algorithm design and analysis
Parallelism with bits
Algorithms
Mathematical models
Programming languages ​​(Electronic computers)
Electronic data processing
topic Algorithm design and analysis
Parallelism with bits
Algorithms
Mathematical models
Programming languages ​​(Electronic computers)
Electronic data processing
Algoritmos
Modelos matemáticos
Lenguajes de programación (Computadores electrónicos)
Procesamiento electrónico de datos
Diseño y análisis de algoritmos
Paralelismo con bits
dc.subject.lemb.spa.fl_str_mv Algoritmos
Modelos matemáticos
Lenguajes de programación (Computadores electrónicos)
Procesamiento electrónico de datos
dc.subject.proposal.spa.fl_str_mv Diseño y análisis de algoritmos
Paralelismo con bits
description El emparejamiento de secuencias se puede entender como el problema de encontrar un patrón con una cierta característica dentro de una secuencia dada de símbolos. El caso más simple es el de encontrar una secuencia dada dentro de la otra secuencia más larga. Este es uno de los más viejos y más penetrantes problemas en informática. Los usos que requieren una cierta forma de emparejamiento de secuencias se pueden encontrar virtualmente por todas partes. Sin embargo, los años recientes han atestiguado un aumento dramático en interés en problemas que emparejan secuencias, especialmente dentro de las comunidades que han crecido más rápidamente como la recuperación de datos y la Biocomputacion. Estas comunidades están haciendo frente no solamente a un aumento drástico en los tamaños del texto que tienen que manejar, sino que también están exigiendo búsquedas más rápidas y sofisticadas. Los patrones de interés no son secuencias simples, sino que también incluyen comodines, boquetes, y expresiones regulares. La definición de un calce puede también permitir diferencias leves entre el patrón y su ocurrencia en el texto. Esto se llama “emparejamiento aproximado” y es especialmente interesante en la recuperación del texto y la biología de cómputo El objetivo de esta investigación es el diseño, análisis e implementación de nuevos algoritmos de búsqueda flexible y eficiente en texto mediante el uso de una nueva técnica que hace uso inherente de la capacidad que tienen las computadoras para hacer operaciones de bits en forma paralela. El objetivo de este trabajo de investigación es el desarrollo y análisis de nuevos algoritmos para resolver el problema de búsqueda aproximada en texto bajo distintas condiciones, así como una mejor comprensión del problema mismo y su comportamiento estadístico. Si bien nuestros resultados pueden ser validos en diversas áreas, centramos nuestra atención en la búsqueda en texto típica de las aplicaciones de recuperación de información.
publishDate 2002
dc.date.issued.none.fl_str_mv 2002
dc.date.accessioned.none.fl_str_mv 2024-03-08T12:57:07Z
dc.date.available.none.fl_str_mv 2024-03-08T12:57:07Z
dc.type.eng.fl_str_mv Research report
dc.type.coar.fl_str_mv http://purl.org/coar/resource_type/c_8042
dc.type.driver.spa.fl_str_mv info:eu-repo/semantics/workingPaper
dc.type.local.spa.fl_str_mv Informe de investigación
dc.type.coar.none.fl_str_mv http://purl.org/coar/resource_type/c_18ws
dc.type.hasversion.spa.fl_str_mv info:eu-repo/semantics/acceptedVersion
dc.type.redcol.none.fl_str_mv http://purl.org/redcol/resource_type/IFI
format http://purl.org/coar/resource_type/c_18ws
status_str acceptedVersion
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/20.500.12749/23884
dc.identifier.instname.spa.fl_str_mv instname:Universidad Autónoma de Bucaramanga - UNAB
dc.identifier.reponame.spa.fl_str_mv reponame:Repositorio Institucional UNAB
dc.identifier.repourl.spa.fl_str_mv repourl:https://repository.unab.edu.co
url http://hdl.handle.net/20.500.12749/23884
identifier_str_mv instname:Universidad Autónoma de Bucaramanga - UNAB
reponame:Repositorio Institucional UNAB
repourl:https://repository.unab.edu.co
dc.language.iso.spa.fl_str_mv spa
language spa
dc.relation.references.spa.fl_str_mv R. A. Baeza-Yates and G. H. Gonnet. A new approach to text searching. Commun. ACM, 35(10):74:82, 1992.
P. A. V. Hall and G. R. Dowling. Approximate string matching. ACM Comp. Surv., 12(4):381:402, 1980.
J. W. Hunt and T. G. Szymanski. A fast algorithm for computing longest common subsequences. Commun. ACM, 20(5):350:353, 1977
V. I. Levenshtein. Binary codes capable of correcting deletions, insertions and reversals. Sov. Phys. Dokl., 6:707:710, 1966.
W. J, Masek and M. S. Paterson. A faster algorithm for computing string edit distances. J. Comput. Syst. Sci., 20(1):18:31, 1980,
S. B. Needleman and C. D. Wunsch. A general method applicable to the search for similarities in the amino acid sequence of two proteins. J, Mol. Biol., 48:443:453, 1970.
D. Sanko and J. B. Kruskal. Time warps, string edits, and macromolecules: the theory and practice of sequence comparison. Addison-Wesley, Reading, MA, 1983.
P. H. Sellers. The theory and computation of evolutionary distances: Pattern recognition. J, Algorithms, 1(4):359:373, 1980.
T. F. Smith and M. S. Waterman. Identification of common molecular sequences. J. Mol. Biol., 147:195:197, 1981.
R. A. Wagner and M. Fischer. The string-to-string correction problem. J. Assoc. Comput. Mach., 21(1):168:173, 1974.
S. Wu and U, Manber. Fast text searching allowing errors. Commun. ACM, 35(10):83:91, 1992.
dc.rights.coar.fl_str_mv http://purl.org/coar/access_right/c_abf2
dc.rights.uri.*.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/2.5/co/
dc.rights.local.spa.fl_str_mv Abierto (Texto Completo)
dc.rights.creativecommons.*.fl_str_mv Atribución-NoComercial-SinDerivadas 2.5 Colombia
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-nd/2.5/co/
Abierto (Texto Completo)
Atribución-NoComercial-SinDerivadas 2.5 Colombia
http://purl.org/coar/access_right/c_abf2
dc.format.mimetype.spa.fl_str_mv application/pdf
dc.coverage.spatial.spa.fl_str_mv Bucaramanga (Santander, Colombia)
dc.coverage.campus.spa.fl_str_mv UNAB Campus Bucaramanga
dc.publisher.grantor.spa.fl_str_mv Universidad Autónoma de Bucaramanga UNAB
dc.publisher.faculty.spa.fl_str_mv Facultad Ingeniería
institution Universidad Autónoma de Bucaramanga - UNAB
bitstream.url.fl_str_mv https://repository.unab.edu.co/bitstream/20.500.12749/23884/1/2002_Informe_de_investigaci%c3%b3n_Pinzon_Ardila_Yoan_Jos%c3%a9.pdf
https://repository.unab.edu.co/bitstream/20.500.12749/23884/2/2002_Presentaci%c3%b3n_de_informe_Pinzon_Ardila_Yoan_Jos%c3%a9.pdf
https://repository.unab.edu.co/bitstream/20.500.12749/23884/3/license.txt
https://repository.unab.edu.co/bitstream/20.500.12749/23884/4/2002_Informe_de_investigaci%c3%b3n_Pinzon_Ardila_Yoan_Jos%c3%a9.pdf.jpg
https://repository.unab.edu.co/bitstream/20.500.12749/23884/5/2002_Presentaci%c3%b3n_de_informe_Pinzon_Ardila_Yoan_Jos%c3%a9.pdf.jpg
bitstream.checksum.fl_str_mv 48788d1673815a70aae4ad098fd9f960
7b7e97e745a7cd3a62653a0034077131
3755c0cfdb77e29f2b9125d7a45dd316
40b2349a7d193b7bfd1639069b24af95
f6ea4ecfe500f77ee05356c2394b28da
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio Institucional | Universidad Autónoma de Bucaramanga - UNAB
repository.mail.fl_str_mv repositorio@unab.edu.co
_version_ 1808410600394457088
spelling Pinzón Ardila, Yoan José195a0a90-6e5d-4108-a5c7-01967717055aBucaramanga (Santander, Colombia)UNAB Campus Bucaramanga2024-03-08T12:57:07Z2024-03-08T12:57:07Z2002http://hdl.handle.net/20.500.12749/23884instname:Universidad Autónoma de Bucaramanga - UNABreponame:Repositorio Institucional UNABrepourl:https://repository.unab.edu.coEl emparejamiento de secuencias se puede entender como el problema de encontrar un patrón con una cierta característica dentro de una secuencia dada de símbolos. El caso más simple es el de encontrar una secuencia dada dentro de la otra secuencia más larga. Este es uno de los más viejos y más penetrantes problemas en informática. Los usos que requieren una cierta forma de emparejamiento de secuencias se pueden encontrar virtualmente por todas partes. Sin embargo, los años recientes han atestiguado un aumento dramático en interés en problemas que emparejan secuencias, especialmente dentro de las comunidades que han crecido más rápidamente como la recuperación de datos y la Biocomputacion. Estas comunidades están haciendo frente no solamente a un aumento drástico en los tamaños del texto que tienen que manejar, sino que también están exigiendo búsquedas más rápidas y sofisticadas. Los patrones de interés no son secuencias simples, sino que también incluyen comodines, boquetes, y expresiones regulares. La definición de un calce puede también permitir diferencias leves entre el patrón y su ocurrencia en el texto. Esto se llama “emparejamiento aproximado” y es especialmente interesante en la recuperación del texto y la biología de cómputo El objetivo de esta investigación es el diseño, análisis e implementación de nuevos algoritmos de búsqueda flexible y eficiente en texto mediante el uso de una nueva técnica que hace uso inherente de la capacidad que tienen las computadoras para hacer operaciones de bits en forma paralela. El objetivo de este trabajo de investigación es el desarrollo y análisis de nuevos algoritmos para resolver el problema de búsqueda aproximada en texto bajo distintas condiciones, así como una mejor comprensión del problema mismo y su comportamiento estadístico. Si bien nuestros resultados pueden ser validos en diversas áreas, centramos nuestra atención en la búsqueda en texto típica de las aplicaciones de recuperación de información.DESCRIPCIÓN DEL PROYECTO SINOPSIS RESUMEN INFORME DE RESULTADOS IMPACTOS INFORME FINANCIEROSequence matching can be understood as the problem of finding a pattern with a certain characteristic within a given sequence of symbols. The simplest case is to find a given sequence within the other longer sequence. This is one of the oldest and most pervasive problems in computing. Uses that require some form of sequence matching can be found virtually everywhere. However, recent years have witnessed a dramatic increase in interest in sequence matching problems, especially within the most rapidly growing communities such as data retrieval and biocomputing. These communities are facing not only a drastic increase in the text sizes they have to handle, but they are also demanding faster and more sophisticated searches. The patterns of interest are not simple sequences, but also include wildcards, gaps, and regular expressions. The definition of a fit can also allow for slight differences between the pattern and its occurrence in the text. This is called “fuzzy matching” and is especially interesting in text retrieval and computational biology. The objective of this research is the design, analysis and implementation of new flexible and efficient search algorithms in text by using a new technique that makes inherent use of the ability of computers to do bit operations in parallel. The objective of this research work is the development and analysis of new algorithms to solve the problem of approximate search in text under different conditions, as well as a better understanding of the problem itself and its statistical behavior. Although our results may be valid in various areas, we focus our attention on the text search typical of information retrieval applications.Modalidad Virtualapplication/pdfspahttp://creativecommons.org/licenses/by-nc-nd/2.5/co/Abierto (Texto Completo)Atribución-NoComercial-SinDerivadas 2.5 Colombiahttp://purl.org/coar/access_right/c_abf2Búsqueda flexible y eficiente en texto con paralelismo de BitsFlexible and efficient search in text with Bits parallelismResearch reportinfo:eu-repo/semantics/workingPaperInforme de investigaciónhttp://purl.org/coar/resource_type/c_18wshttp://purl.org/coar/resource_type/c_8042info:eu-repo/semantics/acceptedVersionhttp://purl.org/redcol/resource_type/IFIUniversidad Autónoma de Bucaramanga UNABFacultad IngenieríaAlgorithm design and analysisParallelism with bitsAlgorithmsMathematical modelsProgramming languages ​​(Electronic computers)Electronic data processingAlgoritmosModelos matemáticosLenguajes de programación (Computadores electrónicos)Procesamiento electrónico de datosDiseño y análisis de algoritmosParalelismo con bitsR. A. Baeza-Yates and G. H. Gonnet. A new approach to text searching. Commun. ACM, 35(10):74:82, 1992.P. A. V. Hall and G. R. Dowling. Approximate string matching. ACM Comp. Surv., 12(4):381:402, 1980.J. W. Hunt and T. G. Szymanski. A fast algorithm for computing longest common subsequences. Commun. ACM, 20(5):350:353, 1977V. I. Levenshtein. Binary codes capable of correcting deletions, insertions and reversals. Sov. Phys. Dokl., 6:707:710, 1966.W. J, Masek and M. S. Paterson. A faster algorithm for computing string edit distances. J. Comput. Syst. Sci., 20(1):18:31, 1980,S. B. Needleman and C. D. Wunsch. A general method applicable to the search for similarities in the amino acid sequence of two proteins. J, Mol. Biol., 48:443:453, 1970.D. Sanko and J. B. Kruskal. Time warps, string edits, and macromolecules: the theory and practice of sequence comparison. Addison-Wesley, Reading, MA, 1983.P. H. Sellers. The theory and computation of evolutionary distances: Pattern recognition. J, Algorithms, 1(4):359:373, 1980.T. F. Smith and M. S. Waterman. Identification of common molecular sequences. J. Mol. Biol., 147:195:197, 1981.R. A. Wagner and M. Fischer. The string-to-string correction problem. J. Assoc. Comput. Mach., 21(1):168:173, 1974.S. Wu and U, Manber. Fast text searching allowing errors. Commun. ACM, 35(10):83:91, 1992.ORIGINAL2002_Informe_de_investigación_Pinzon_Ardila_Yoan_José.pdf2002_Informe_de_investigación_Pinzon_Ardila_Yoan_José.pdfInforme de investigaciónapplication/pdf1177213https://repository.unab.edu.co/bitstream/20.500.12749/23884/1/2002_Informe_de_investigaci%c3%b3n_Pinzon_Ardila_Yoan_Jos%c3%a9.pdf48788d1673815a70aae4ad098fd9f960MD51open access2002_Presentación_de_informe_Pinzon_Ardila_Yoan_José.pdf2002_Presentación_de_informe_Pinzon_Ardila_Yoan_José.pdfPresentación de informeapplication/pdf2913445https://repository.unab.edu.co/bitstream/20.500.12749/23884/2/2002_Presentaci%c3%b3n_de_informe_Pinzon_Ardila_Yoan_Jos%c3%a9.pdf7b7e97e745a7cd3a62653a0034077131MD52open accessLICENSElicense.txtlicense.txttext/plain; charset=utf-8829https://repository.unab.edu.co/bitstream/20.500.12749/23884/3/license.txt3755c0cfdb77e29f2b9125d7a45dd316MD53open accessTHUMBNAIL2002_Informe_de_investigación_Pinzon_Ardila_Yoan_José.pdf.jpg2002_Informe_de_investigación_Pinzon_Ardila_Yoan_José.pdf.jpgIM Thumbnailimage/jpeg8761https://repository.unab.edu.co/bitstream/20.500.12749/23884/4/2002_Informe_de_investigaci%c3%b3n_Pinzon_Ardila_Yoan_Jos%c3%a9.pdf.jpg40b2349a7d193b7bfd1639069b24af95MD54open access2002_Presentación_de_informe_Pinzon_Ardila_Yoan_José.pdf.jpg2002_Presentación_de_informe_Pinzon_Ardila_Yoan_José.pdf.jpgIM Thumbnailimage/jpeg10941https://repository.unab.edu.co/bitstream/20.500.12749/23884/5/2002_Presentaci%c3%b3n_de_informe_Pinzon_Ardila_Yoan_Jos%c3%a9.pdf.jpgf6ea4ecfe500f77ee05356c2394b28daMD55open access20.500.12749/23884oai:repository.unab.edu.co:20.500.12749/238842024-03-08 22:00:42.333open accessRepositorio Institucional | Universidad Autónoma de Bucaramanga - UNABrepositorio@unab.edu.coRUwoTE9TKSBBVVRPUihFUyksIG1hbmlmaWVzdGEobWFuaWZlc3RhbW9zKSBxdWUgbGEgb2JyYSBvYmpldG8gZGUgbGEgcHJlc2VudGUgYXV0b3JpemFjacOzbiBlcyBvcmlnaW5hbCB5IGxhIHJlYWxpesOzIHNpbiB2aW9sYXIgbyB1c3VycGFyIGRlcmVjaG9zIGRlIGF1dG9yIGRlIHRlcmNlcm9zLCBwb3IgbG8gdGFudG8sIGxhIG9icmEgZXMgZGUgZXhjbHVzaXZhIGF1dG9yw61hIHkgdGllbmUgbGEgdGl0dWxhcmlkYWQgc29icmUgbGEgbWlzbWEuCgpFbiBjYXNvIGRlIHByZXNlbnRhcnNlIGN1YWxxdWllciByZWNsYW1hY2nDs24gbyBhY2Npw7NuIHBvciBwYXJ0ZSBkZSB1biB0ZXJjZXJvIGVuIGN1YW50byBhIGxvcyBkZXJlY2hvcyBkZSBhdXRvciBzb2JyZSBsYSBvYnJhIGVuIGN1ZXN0acOzbi4gRWwgQVVUT1IgYXN1bWlyw6EgdG9kYSBsYSByZXNwb25zYWJpbGlkYWQsIHkgc2FsZHLDoSBlbiBkZWZlbnNhIGRlIGxvcyBkZXJlY2hvcyBhcXXDrSBhdXRvcml6YWRvcywgcGFyYSB0b2RvcyBsb3MgZWZlY3RvcyBsYSBVTkFCIGFjdMO6YSBjb21vIHVuIHRlcmNlcm8gZGUgYnVlbmEgZmUuCgpFbCBBVVRPUiBhdXRvcml6YSBhIGxhIFVuaXZlcnNpZGFkIEF1dMOzbm9tYSBkZSBCdWNhcmFtYW5nYSBwYXJhIHF1ZSBlbiBsb3MgdMOpcm1pbm9zIGVzdGFibGVjaWRvcyBlbiBsYSBMZXkgMjMgZGUgMTk4MiwgTGV5IDQ0IGRlIDE5OTMsIERlY2lzacOzbiBBbmRpbmEgMzUxIGRlIDE5OTMgeSBkZW3DoXMgbm9ybWFzIGdlbmVyYWxlcyBzb2JyZSBsYSBtYXRlcmlhLCB1dGlsaWNlIGxhIG9icmEgb2JqZXRvIGRlIGxhIHByZXNlbnRlIGF1dG9yaXphY2nDs24uCg==