Propuesta de un prototipo de sistema para almacenamiento de información de secuencias biológicas en estructuras de árboles de posiciones

Muchos investigadores han estado estudiando proyectos de secuenciamiento, generando cantidades de información y grandes volúmenes de secuencias imposibles de analizar sin el uso de herramientas computacionales. Motivados por esta necesidad se ha desarrollado un prototipo de sistema de software que c...

Full description

Autores:
Quiroga Rivas, Julie Alexandra
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
1998
Institución:
Universidad Autónoma de Bucaramanga - UNAB
Repositorio:
Repositorio UNAB
Idioma:
spa
OAI Identifier:
oai:repository.unab.edu.co:20.500.12749/26874
Acceso en línea:
http://hdl.handle.net/20.500.12749/26874
Palabra clave:
Systems engineer
Technological innovations
Bioinformatics
Biocomputing
Computational techniques
Information retrieval
Prototype development
Information storage and retrieval systems
Ingeniería de sistemas
Innovaciones tecnológicas
Recuperación de información
Desarrollo de prototipos
Sistemas de almacenamiento y recuperación de información
Bioinformática
Biocomputación
Técnicas computacionales
Rights
License
http://creativecommons.org/licenses/by-nc-nd/2.5/co/
id UNAB2_a2ba288fcc831681d7803a38fec06747
oai_identifier_str oai:repository.unab.edu.co:20.500.12749/26874
network_acronym_str UNAB2
network_name_str Repositorio UNAB
repository_id_str
dc.title.spa.fl_str_mv Propuesta de un prototipo de sistema para almacenamiento de información de secuencias biológicas en estructuras de árboles de posiciones
dc.title.translated.spa.fl_str_mv Proposal for a prototype system for storing biological sequence information in position tree structures
title Propuesta de un prototipo de sistema para almacenamiento de información de secuencias biológicas en estructuras de árboles de posiciones
spellingShingle Propuesta de un prototipo de sistema para almacenamiento de información de secuencias biológicas en estructuras de árboles de posiciones
Systems engineer
Technological innovations
Bioinformatics
Biocomputing
Computational techniques
Information retrieval
Prototype development
Information storage and retrieval systems
Ingeniería de sistemas
Innovaciones tecnológicas
Recuperación de información
Desarrollo de prototipos
Sistemas de almacenamiento y recuperación de información
Bioinformática
Biocomputación
Técnicas computacionales
title_short Propuesta de un prototipo de sistema para almacenamiento de información de secuencias biológicas en estructuras de árboles de posiciones
title_full Propuesta de un prototipo de sistema para almacenamiento de información de secuencias biológicas en estructuras de árboles de posiciones
title_fullStr Propuesta de un prototipo de sistema para almacenamiento de información de secuencias biológicas en estructuras de árboles de posiciones
title_full_unstemmed Propuesta de un prototipo de sistema para almacenamiento de información de secuencias biológicas en estructuras de árboles de posiciones
title_sort Propuesta de un prototipo de sistema para almacenamiento de información de secuencias biológicas en estructuras de árboles de posiciones
dc.creator.fl_str_mv Quiroga Rivas, Julie Alexandra
dc.contributor.advisor.none.fl_str_mv Parra, Carlos Arturo
dc.contributor.author.none.fl_str_mv Quiroga Rivas, Julie Alexandra
dc.contributor.cvlac.spa.fl_str_mv Parra, Carlos Arturo [0000746274]
dc.contributor.orcid.spa.fl_str_mv Parra, Carlos Arturo [0000-0003-3593-9504]
dc.subject.keywords.spa.fl_str_mv Systems engineer
Technological innovations
Bioinformatics
Biocomputing
Computational techniques
Information retrieval
Prototype development
Information storage and retrieval systems
topic Systems engineer
Technological innovations
Bioinformatics
Biocomputing
Computational techniques
Information retrieval
Prototype development
Information storage and retrieval systems
Ingeniería de sistemas
Innovaciones tecnológicas
Recuperación de información
Desarrollo de prototipos
Sistemas de almacenamiento y recuperación de información
Bioinformática
Biocomputación
Técnicas computacionales
dc.subject.lemb.spa.fl_str_mv Ingeniería de sistemas
Innovaciones tecnológicas
Recuperación de información
Desarrollo de prototipos
Sistemas de almacenamiento y recuperación de información
dc.subject.proposal.spa.fl_str_mv Bioinformática
Biocomputación
Técnicas computacionales
description Muchos investigadores han estado estudiando proyectos de secuenciamiento, generando cantidades de información y grandes volúmenes de secuencias imposibles de analizar sin el uso de herramientas computacionales. Motivados por esta necesidad se ha desarrollado un prototipo de sistema de software que consta de un conjunto de operaciones en árboles de posiciones que permiten la construcción de los mismos y la localización rápida de subsecuencias en archivos de secuencias biológicas para un máximo de cien secuencias. La información de secuencias es comúnmente almacenada en locaciones contiguas de memoria de acuerdo a las secuencias biológicas en las moléculas. Este método de almacenamiento no es eficiente para el procesamiento de aplicaciones de grandes grupos de secuencias de datos. El problema clave está en el hecho de que los datos almacenados secuencialmente tienen que ser procesados secuencialmente. La información dentro de una secuencia frecuentemente codificada a través de la presencia de una cierta subsecuencia de moléculas, por ejemplo, una secuencia de DNA codifica una cierta proteína. Para detectar la presencia de cualquier subsecuencia dada, se tiene que accesar la secuencia completa y para detectar una subsecuencia en un conjunto de secuencias, cada secuencia debe ser accesada secuencialmente. En la medida en que aumenta el volumen de información y el tiempo de acceso a la secuencia de datos, se convierte en un factor limítrofe de recuperación de la información de la secuencia independientemente de la velocidad de comparación de secuencias.
publishDate 1998
dc.date.issued.none.fl_str_mv 1998
dc.date.accessioned.none.fl_str_mv 2024-10-08T20:22:53Z
dc.date.available.none.fl_str_mv 2024-10-08T20:22:53Z
dc.type.driver.none.fl_str_mv info:eu-repo/semantics/bachelorThesis
dc.type.local.spa.fl_str_mv Trabajo de Grado
dc.type.coar.none.fl_str_mv http://purl.org/coar/resource_type/c_7a1f
dc.type.hasversion.none.fl_str_mv info:eu-repo/semantics/acceptedVersion
dc.type.redcol.none.fl_str_mv http://purl.org/redcol/resource_type/TP
format http://purl.org/coar/resource_type/c_7a1f
status_str acceptedVersion
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/20.500.12749/26874
dc.identifier.instname.spa.fl_str_mv instname:Universidad Autónoma de Bucaramanga - UNAB
dc.identifier.reponame.spa.fl_str_mv reponame:Repositorio Institucional UNAB
dc.identifier.repourl.spa.fl_str_mv repourl:https://repository.unab.edu.co
url http://hdl.handle.net/20.500.12749/26874
identifier_str_mv instname:Universidad Autónoma de Bucaramanga - UNAB
reponame:Repositorio Institucional UNAB
repourl:https://repository.unab.edu.co
dc.language.iso.spa.fl_str_mv spa
language spa
dc.relation.references.spa.fl_str_mv AHO, HOPCROFT, ULLMAN, Estructura de Datos y Algoritmos, Ed. Addison-Weley, 1988
ALTSCHUL, $. F., Gish, W., Miller, W., Myers, E. and Lipmann (1990). Basic Local Alignment Search Tool J. Mol. Biol. 215:403 p
AHO, HOPCROFT, ULLMAN, The Design and Analysis of Computer Algorithms, 1974. 346-357 p.
BYRON $. Gottfried, Programación en C. Ed. Mc Graw-Hill, 1992
BODMER W. (1995), Where Will Genome Analysis Lead Us Forty Years On Ann. NY. Acad.
EWE, Thorwald. Conceptos Actuales Ingeniería Genética, 1987
FISHER, M.J. and M.S. Paterson[1974]. "String-Matching and other products". Project MAG Thecnical Memorandum 41, MIT, Cambridge, Mass.
FU LiMin; Neural Networks in Computer Intelligence; Mc Graw-Hill, 1994
GOLDBERG David E.; Genetic Algorithms in search, Optimization, and Machine Learning; Addison-Wesley Pub. Co. 1989,
HIRSCHBERG, D.S.[1973]. "A linear space algorithm for computing maximal common subsequences", TR-138, Computer Science Laboratory, Dept. of Electrical Enginnering, Princeton University , Princeton N.J,
KARP, R.M., REE. Miller, and A. L Rosenberg[1972]. "Rapid Identification of Repeated Patterns in Strings, trees and arrays", Proc 4'" Annual ACM Symposium on Theory of Computing, 125-136 p.
KNUTH, D.E. [1973b] "Notes on Pattern Matching". University of Frondheim, Norway.
LIPMANN, D. J and Pearson, W. R. (1985). Rapid and Sensitive Protein Similarity Searches. Science 227:1435 p.
PERRY, Greg. Aprendiendo Programación Orientada a Objetos con Turbo C++ en 21 d ías. 1995
SCHILDT Herbert, Turbo C/C++ Manual de Referencia. 1992
SCHILDT Herbert, Programación en Turbo C, ed. Mc Graw-Hill
SOUCEK Branco, The iris Group; Dynamic, Genetic, and Chaotic Programming the sixth generation; Wiley Inter-science 1993,
RICH Elaine, Artificial Intelligence, McGraw-Hill Book Company, 1983.
SOUCEK Branco, The lris Group; Dynamic, Genetic, and Chaotic Programming the sixth generation; Wiley Inter-science 1993.
WAGNER, R.A. and M.J. Fischer[1974]. "The string-to-string correction problem", d.ACM, 21:1, 168-173 p.
WEINER P.[1973] "Linear Pattern Matching Algorithms"”, conference record, |EEE, 14% Annual Symposium on Switching and Automata Theory 1-11
Winston Patrick, inteligencia Artificial. 3ra edición. 1994. Pag. 70-85
Técnicas de Programación. Universidad Autónoma de Bucaramanga TEC de Monterrey. Abril 1997,
Accessing Databases. http://arep.med, harvard.edu/seganal/db. html
Database Artifacts. http:/wod.med.harvard.edu/seganal/contam.html
EDELKAMP Estefan, Multi Suffix Trees. Institut Fúr Informatik, Universiát Freiburg. edelkampHinformatik. uni-freiburg.de
dc.rights.coar.fl_str_mv http://purl.org/coar/access_right/c_abf2
dc.rights.uri.*.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/2.5/co/
dc.rights.local.spa.fl_str_mv Abierto (Texto Completo)
dc.rights.creativecommons.*.fl_str_mv Atribución-NoComercial-SinDerivadas 2.5 Colombia
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-nd/2.5/co/
Abierto (Texto Completo)
Atribución-NoComercial-SinDerivadas 2.5 Colombia
http://purl.org/coar/access_right/c_abf2
dc.format.mimetype.spa.fl_str_mv application/pdf
dc.coverage.spatial.spa.fl_str_mv Bucaramanga, Santander (Colombia)
dc.coverage.campus.spa.fl_str_mv UNAB Campus Bucaramanga
dc.publisher.grantor.spa.fl_str_mv Universidad Autónoma de Bucaramanga UNAB
dc.publisher.faculty.spa.fl_str_mv Facultad Ingeniería
dc.publisher.program.spa.fl_str_mv Pregrado Ingeniería de Sistemas
institution Universidad Autónoma de Bucaramanga - UNAB
bitstream.url.fl_str_mv https://repository.unab.edu.co/bitstream/20.500.12749/26874/1/1998_Quiroga_Rivas_Julie.pdf
https://repository.unab.edu.co/bitstream/20.500.12749/26874/2/license.txt
https://repository.unab.edu.co/bitstream/20.500.12749/26874/3/1998_Quiroga_Rivas_Julie.pdf.jpg
bitstream.checksum.fl_str_mv 580d1ca1ee9f22310a4369c720948e03
3755c0cfdb77e29f2b9125d7a45dd316
49ed919a38d887bcd81280718aa18e07
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositorio Institucional | Universidad Autónoma de Bucaramanga - UNAB
repository.mail.fl_str_mv repositorio@unab.edu.co
_version_ 1814278413127516160
spelling Parra, Carlos Arturo9c2ce575-82e0-46c5-9e1d-1c88241e0c69Quiroga Rivas, Julie Alexandra9446ba87-ee84-44b5-b5a1-bb2e9f04c27aParra, Carlos Arturo [0000746274]Parra, Carlos Arturo [0000-0003-3593-9504]Bucaramanga, Santander (Colombia)UNAB Campus Bucaramanga2024-10-08T20:22:53Z2024-10-08T20:22:53Z1998http://hdl.handle.net/20.500.12749/26874instname:Universidad Autónoma de Bucaramanga - UNABreponame:Repositorio Institucional UNABrepourl:https://repository.unab.edu.coMuchos investigadores han estado estudiando proyectos de secuenciamiento, generando cantidades de información y grandes volúmenes de secuencias imposibles de analizar sin el uso de herramientas computacionales. Motivados por esta necesidad se ha desarrollado un prototipo de sistema de software que consta de un conjunto de operaciones en árboles de posiciones que permiten la construcción de los mismos y la localización rápida de subsecuencias en archivos de secuencias biológicas para un máximo de cien secuencias. La información de secuencias es comúnmente almacenada en locaciones contiguas de memoria de acuerdo a las secuencias biológicas en las moléculas. Este método de almacenamiento no es eficiente para el procesamiento de aplicaciones de grandes grupos de secuencias de datos. El problema clave está en el hecho de que los datos almacenados secuencialmente tienen que ser procesados secuencialmente. La información dentro de una secuencia frecuentemente codificada a través de la presencia de una cierta subsecuencia de moléculas, por ejemplo, una secuencia de DNA codifica una cierta proteína. Para detectar la presencia de cualquier subsecuencia dada, se tiene que accesar la secuencia completa y para detectar una subsecuencia en un conjunto de secuencias, cada secuencia debe ser accesada secuencialmente. En la medida en que aumenta el volumen de información y el tiempo de acceso a la secuencia de datos, se convierte en un factor limítrofe de recuperación de la información de la secuencia independientemente de la velocidad de comparación de secuencias.INTRODUCCIÓN PRESENTACIÓN DEL PROYECTO SECUENCIAS BIOLÓGICAS PLANTEAMIENTO DEL PROBLEMA SOLUCIONES AL PROBLEMA OPERACIONES BÁSICAS CON ÁRBOLES DE POSICIONES DISEÑO DE UN PROTOTIPO DE SISTEMA PARA EL ALMACENAMIENTO DE INFORMACIÓN DE SECUENCIAS BIOLÓGICAS APLICACIONES DE LAS OPERACIONES DE ÁRBOLES DE POSICIONES Y ÁRBOLES DE POSICIONES GENERALIZADO CONCLUSIONES RECOMENDACIONES REFERENCIAS BIBLIOGRÁFICAS ANEXOSPregradoMany researchers have been studying sequencing projects, generating large amounts of information and volumes of sequences impossible to analyze without the use of computational tools. Motivated by this need, a prototype software system has been developed that consists of a set of operations on position trees that allow the construction of trees and the rapid location of subsequences in biological sequence files for up to one hundred sequences. Sequence information is commonly stored in contiguous memory locations according to the biological sequences in the molecules. This storage method is not efficient for processing applications of large sets of sequence data. The key problem lies in the fact that data stored sequentially has to be processed sequentially. The information within a sequence is often encoded through the presence of a certain subsequence of molecules, for example, a DNA sequence encodes a certain protein. To detect the presence of any given subsequence, the entire sequence has to be accessed and to detect a subsequence in a set of sequences, each sequence must be accessed sequentially. As the volume of information and the access time to the data sequence increases, it becomes a limiting factor for retrieving sequence information regardless of the speed of sequence comparison.Modalidad Presencialapplication/pdfspahttp://creativecommons.org/licenses/by-nc-nd/2.5/co/Abierto (Texto Completo)Atribución-NoComercial-SinDerivadas 2.5 Colombiahttp://purl.org/coar/access_right/c_abf2Propuesta de un prototipo de sistema para almacenamiento de información de secuencias biológicas en estructuras de árboles de posicionesProposal for a prototype system for storing biological sequence information in position tree structuresIngeniero de SistemasUniversidad Autónoma de Bucaramanga UNABFacultad IngenieríaPregrado Ingeniería de Sistemasinfo:eu-repo/semantics/bachelorThesisTrabajo de Gradohttp://purl.org/coar/resource_type/c_7a1finfo:eu-repo/semantics/acceptedVersionhttp://purl.org/redcol/resource_type/TPSystems engineerTechnological innovationsBioinformaticsBiocomputingComputational techniquesInformation retrievalPrototype developmentInformation storage and retrieval systemsIngeniería de sistemasInnovaciones tecnológicasRecuperación de informaciónDesarrollo de prototiposSistemas de almacenamiento y recuperación de informaciónBioinformáticaBiocomputaciónTécnicas computacionalesAHO, HOPCROFT, ULLMAN, Estructura de Datos y Algoritmos, Ed. Addison-Weley, 1988ALTSCHUL, $. F., Gish, W., Miller, W., Myers, E. and Lipmann (1990). Basic Local Alignment Search Tool J. Mol. Biol. 215:403 pAHO, HOPCROFT, ULLMAN, The Design and Analysis of Computer Algorithms, 1974. 346-357 p.BYRON $. Gottfried, Programación en C. Ed. Mc Graw-Hill, 1992BODMER W. (1995), Where Will Genome Analysis Lead Us Forty Years On Ann. NY. Acad.EWE, Thorwald. Conceptos Actuales Ingeniería Genética, 1987FISHER, M.J. and M.S. Paterson[1974]. "String-Matching and other products". Project MAG Thecnical Memorandum 41, MIT, Cambridge, Mass.FU LiMin; Neural Networks in Computer Intelligence; Mc Graw-Hill, 1994GOLDBERG David E.; Genetic Algorithms in search, Optimization, and Machine Learning; Addison-Wesley Pub. Co. 1989,HIRSCHBERG, D.S.[1973]. "A linear space algorithm for computing maximal common subsequences", TR-138, Computer Science Laboratory, Dept. of Electrical Enginnering, Princeton University , Princeton N.J,KARP, R.M., REE. Miller, and A. L Rosenberg[1972]. "Rapid Identification of Repeated Patterns in Strings, trees and arrays", Proc 4'" Annual ACM Symposium on Theory of Computing, 125-136 p.KNUTH, D.E. [1973b] "Notes on Pattern Matching". University of Frondheim, Norway.LIPMANN, D. J and Pearson, W. R. (1985). Rapid and Sensitive Protein Similarity Searches. Science 227:1435 p.PERRY, Greg. Aprendiendo Programación Orientada a Objetos con Turbo C++ en 21 d ías. 1995SCHILDT Herbert, Turbo C/C++ Manual de Referencia. 1992SCHILDT Herbert, Programación en Turbo C, ed. Mc Graw-HillSOUCEK Branco, The iris Group; Dynamic, Genetic, and Chaotic Programming the sixth generation; Wiley Inter-science 1993,RICH Elaine, Artificial Intelligence, McGraw-Hill Book Company, 1983.SOUCEK Branco, The lris Group; Dynamic, Genetic, and Chaotic Programming the sixth generation; Wiley Inter-science 1993.WAGNER, R.A. and M.J. Fischer[1974]. "The string-to-string correction problem", d.ACM, 21:1, 168-173 p.WEINER P.[1973] "Linear Pattern Matching Algorithms"”, conference record, |EEE, 14% Annual Symposium on Switching and Automata Theory 1-11Winston Patrick, inteligencia Artificial. 3ra edición. 1994. Pag. 70-85Técnicas de Programación. Universidad Autónoma de Bucaramanga TEC de Monterrey. Abril 1997,Accessing Databases. http://arep.med, harvard.edu/seganal/db. htmlDatabase Artifacts. http:/wod.med.harvard.edu/seganal/contam.htmlEDELKAMP Estefan, Multi Suffix Trees. Institut Fúr Informatik, Universiát Freiburg. edelkampHinformatik. uni-freiburg.deORIGINAL1998_Quiroga_Rivas_Julie.pdf1998_Quiroga_Rivas_Julie.pdfTesisapplication/pdf17394920https://repository.unab.edu.co/bitstream/20.500.12749/26874/1/1998_Quiroga_Rivas_Julie.pdf580d1ca1ee9f22310a4369c720948e03MD51open accessLICENSElicense.txtlicense.txttext/plain; charset=utf-8829https://repository.unab.edu.co/bitstream/20.500.12749/26874/2/license.txt3755c0cfdb77e29f2b9125d7a45dd316MD52open accessTHUMBNAIL1998_Quiroga_Rivas_Julie.pdf.jpg1998_Quiroga_Rivas_Julie.pdf.jpgIM Thumbnailimage/jpeg6184https://repository.unab.edu.co/bitstream/20.500.12749/26874/3/1998_Quiroga_Rivas_Julie.pdf.jpg49ed919a38d887bcd81280718aa18e07MD53open access20.500.12749/26874oai:repository.unab.edu.co:20.500.12749/268742024-10-16 15:19:46.018open accessRepositorio Institucional | Universidad Autónoma de Bucaramanga - UNABrepositorio@unab.edu.coRUwoTE9TKSBBVVRPUihFUyksIG1hbmlmaWVzdGEobWFuaWZlc3RhbW9zKSBxdWUgbGEgb2JyYSBvYmpldG8gZGUgbGEgcHJlc2VudGUgYXV0b3JpemFjacOzbiBlcyBvcmlnaW5hbCB5IGxhIHJlYWxpesOzIHNpbiB2aW9sYXIgbyB1c3VycGFyIGRlcmVjaG9zIGRlIGF1dG9yIGRlIHRlcmNlcm9zLCBwb3IgbG8gdGFudG8sIGxhIG9icmEgZXMgZGUgZXhjbHVzaXZhIGF1dG9yw61hIHkgdGllbmUgbGEgdGl0dWxhcmlkYWQgc29icmUgbGEgbWlzbWEuCgpFbiBjYXNvIGRlIHByZXNlbnRhcnNlIGN1YWxxdWllciByZWNsYW1hY2nDs24gbyBhY2Npw7NuIHBvciBwYXJ0ZSBkZSB1biB0ZXJjZXJvIGVuIGN1YW50byBhIGxvcyBkZXJlY2hvcyBkZSBhdXRvciBzb2JyZSBsYSBvYnJhIGVuIGN1ZXN0acOzbi4gRWwgQVVUT1IgYXN1bWlyw6EgdG9kYSBsYSByZXNwb25zYWJpbGlkYWQsIHkgc2FsZHLDoSBlbiBkZWZlbnNhIGRlIGxvcyBkZXJlY2hvcyBhcXXDrSBhdXRvcml6YWRvcywgcGFyYSB0b2RvcyBsb3MgZWZlY3RvcyBsYSBVTkFCIGFjdMO6YSBjb21vIHVuIHRlcmNlcm8gZGUgYnVlbmEgZmUuCgpFbCBBVVRPUiBhdXRvcml6YSBhIGxhIFVuaXZlcnNpZGFkIEF1dMOzbm9tYSBkZSBCdWNhcmFtYW5nYSBwYXJhIHF1ZSBlbiBsb3MgdMOpcm1pbm9zIGVzdGFibGVjaWRvcyBlbiBsYSBMZXkgMjMgZGUgMTk4MiwgTGV5IDQ0IGRlIDE5OTMsIERlY2lzacOzbiBBbmRpbmEgMzUxIGRlIDE5OTMgeSBkZW3DoXMgbm9ybWFzIGdlbmVyYWxlcyBzb2JyZSBsYSBtYXRlcmlhLCB1dGlsaWNlIGxhIG9icmEgb2JqZXRvIGRlIGxhIHByZXNlbnRlIGF1dG9yaXphY2nDs24uCg==