Propuesta de un prototipo de sistema para almacenamiento de información de secuencias biológicas en estructuras de árboles de posiciones

Muchos investigadores han estado estudiando proyectos de secuenciamiento, generando cantidades de información y grandes volúmenes de secuencias imposibles de analizar sin el uso de herramientas computacionales. Motivados por esta necesidad se ha desarrollado un prototipo de sistema de software que c...

Full description

Autores:
Quiroga Rivas, Julie Alexandra
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
1998
Institución:
Universidad Autónoma de Bucaramanga - UNAB
Repositorio:
Repositorio UNAB
Idioma:
spa
OAI Identifier:
oai:repository.unab.edu.co:20.500.12749/26874
Acceso en línea:
http://hdl.handle.net/20.500.12749/26874
Palabra clave:
Systems engineer
Technological innovations
Bioinformatics
Biocomputing
Computational techniques
Information retrieval
Prototype development
Information storage and retrieval systems
Ingeniería de sistemas
Innovaciones tecnológicas
Recuperación de información
Desarrollo de prototipos
Sistemas de almacenamiento y recuperación de información
Bioinformática
Biocomputación
Técnicas computacionales
Rights
License
http://creativecommons.org/licenses/by-nc-nd/2.5/co/
Description
Summary:Muchos investigadores han estado estudiando proyectos de secuenciamiento, generando cantidades de información y grandes volúmenes de secuencias imposibles de analizar sin el uso de herramientas computacionales. Motivados por esta necesidad se ha desarrollado un prototipo de sistema de software que consta de un conjunto de operaciones en árboles de posiciones que permiten la construcción de los mismos y la localización rápida de subsecuencias en archivos de secuencias biológicas para un máximo de cien secuencias. La información de secuencias es comúnmente almacenada en locaciones contiguas de memoria de acuerdo a las secuencias biológicas en las moléculas. Este método de almacenamiento no es eficiente para el procesamiento de aplicaciones de grandes grupos de secuencias de datos. El problema clave está en el hecho de que los datos almacenados secuencialmente tienen que ser procesados secuencialmente. La información dentro de una secuencia frecuentemente codificada a través de la presencia de una cierta subsecuencia de moléculas, por ejemplo, una secuencia de DNA codifica una cierta proteína. Para detectar la presencia de cualquier subsecuencia dada, se tiene que accesar la secuencia completa y para detectar una subsecuencia en un conjunto de secuencias, cada secuencia debe ser accesada secuencialmente. En la medida en que aumenta el volumen de información y el tiempo de acceso a la secuencia de datos, se convierte en un factor limítrofe de recuperación de la información de la secuencia independientemente de la velocidad de comparación de secuencias.