Análisis e implementación de un mecanismo de tolerancia a fallas y restauración para una infraestructura de cálculo distribuido en redes universitarias

Poder contar con un nivel de tolerancia a fallas que se presentan en un momento dado dentro de estructuras clúster es indispensable para que el tiempo de cómputo utilizado junto con los cálculos realizados no se pierdan. En la creación de un clúster se usan herramientas que conforman lo que se conoc...

Full description

Autores:
Uribe Espinosa, Rosemberg José
Tipo de recurso:
http://purl.org/coar/version/c_b1a7d7d4d402bcce
Fecha de publicación:
2011
Institución:
Universidad Industrial de Santander
Repositorio:
Repositorio UIS
Idioma:
spa
OAI Identifier:
oai:noesis.uis.edu.co:20.500.14071/25145
Acceso en línea:
https://noesis.uis.edu.co/handle/20.500.14071/25145
https://noesis.uis.edu.co
Palabra clave:
Clúster
Computemode3
Tolerancia a fallas
Computación de alto rendimiento
Puntos de restauración (Checkpoints)
Recursos ociosos
núcleo (Kernel).
Cluster
Computemode6.
Fault tolerance
High performance computing
Checkpoints
idle resources
kernel
Rights
License
Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)
id UISANTADR2_e34cbff7392c7a0b8ccdd242a63e4947
oai_identifier_str oai:noesis.uis.edu.co:20.500.14071/25145
network_acronym_str UISANTADR2
network_name_str Repositorio UIS
repository_id_str
dc.title.none.fl_str_mv Análisis e implementación de un mecanismo de tolerancia a fallas y restauración para una infraestructura de cálculo distribuido en redes universitarias
dc.title.english.none.fl_str_mv Analysis and implementation of a fault tolerance mechanism and restoration for distributed computaton infrastructure at univeristy networks.
title Análisis e implementación de un mecanismo de tolerancia a fallas y restauración para una infraestructura de cálculo distribuido en redes universitarias
spellingShingle Análisis e implementación de un mecanismo de tolerancia a fallas y restauración para una infraestructura de cálculo distribuido en redes universitarias
Clúster
Computemode3
Tolerancia a fallas
Computación de alto rendimiento
Puntos de restauración (Checkpoints)
Recursos ociosos
núcleo (Kernel).
Cluster
Computemode6.
Fault tolerance
High performance computing
Checkpoints
idle resources
kernel
title_short Análisis e implementación de un mecanismo de tolerancia a fallas y restauración para una infraestructura de cálculo distribuido en redes universitarias
title_full Análisis e implementación de un mecanismo de tolerancia a fallas y restauración para una infraestructura de cálculo distribuido en redes universitarias
title_fullStr Análisis e implementación de un mecanismo de tolerancia a fallas y restauración para una infraestructura de cálculo distribuido en redes universitarias
title_full_unstemmed Análisis e implementación de un mecanismo de tolerancia a fallas y restauración para una infraestructura de cálculo distribuido en redes universitarias
title_sort Análisis e implementación de un mecanismo de tolerancia a fallas y restauración para una infraestructura de cálculo distribuido en redes universitarias
dc.creator.fl_str_mv Uribe Espinosa, Rosemberg José
dc.contributor.advisor.none.fl_str_mv Escobar Ramírez, Juan Carlos
Barrios Hernández, Carlos Jaime
dc.contributor.author.none.fl_str_mv Uribe Espinosa, Rosemberg José
dc.subject.none.fl_str_mv Clúster
Computemode3
Tolerancia a fallas
Computación de alto rendimiento
Puntos de restauración (Checkpoints)
Recursos ociosos
núcleo (Kernel).
topic Clúster
Computemode3
Tolerancia a fallas
Computación de alto rendimiento
Puntos de restauración (Checkpoints)
Recursos ociosos
núcleo (Kernel).
Cluster
Computemode6.
Fault tolerance
High performance computing
Checkpoints
idle resources
kernel
dc.subject.keyword.none.fl_str_mv Cluster
Computemode6.
Fault tolerance
High performance computing
Checkpoints
idle resources
kernel
description Poder contar con un nivel de tolerancia a fallas que se presentan en un momento dado dentro de estructuras clúster es indispensable para que el tiempo de cómputo utilizado junto con los cálculos realizados no se pierdan. En la creación de un clúster se usan herramientas que conforman lo que se conoce como un middleware que permite la calendarización y administración de recursos. OAR es la herramienta que administra los recursos que hacen parte del clúster facilitando de cierta manera su creación y manejo, mientras que Computemode es una herramienta que permite crear un clúster ligero a partir de recursos ociosos administrándolos con OAR. Ninguna de estas herramientas cuenta con un sistema que le permita responder a fallas de infraestructura eléctrica, nodos, equipos de redes, entre otras, lo que crea inconformismo en los usuarios que ven a esta pérdida de tiempo de cómputo como un atraso en sus proyectos. Dentro de la tolerancia a fallas, la creación de checkpoints (puntos de chequeo) es una solución que permite presentar una respuesta a más de una falla y a la vez crea un sentimiento de seguridad en el usuario de la estructura de computación de alto rendimiento. Al contar con un respaldo de la información que se va obteniendo, se incrementaría el uso de estas plataformas, al aumentar la confianza en el uso de estas estructuras, especialmente en un Clúster basado en Computemode. Este proyecto busca realizar una investigación sobre los tipos de fallas que se pueden presentar categorizarlas y buscar una posible solución, además de las diferentes opciones de creación de checkpoints, su aplicabilidad, funcionamiento y compatibilidad para escoger la más apropiada e integrarla a Computemode y así dotarlo de un sistema de tolerancias a fallas. 1 Trabajo de grado. Modalidad:
publishDate 2011
dc.date.available.none.fl_str_mv 2011
2024-03-03T18:38:22Z
dc.date.created.none.fl_str_mv 2011
dc.date.issued.none.fl_str_mv 2011
dc.date.accessioned.none.fl_str_mv 2024-03-03T18:38:22Z
dc.type.local.none.fl_str_mv Tesis/Trabajo de grado - Monografía - Pregrado
dc.type.hasversion.none.fl_str_mv http://purl.org/coar/resource_type/c_7a1f
dc.type.coar.none.fl_str_mv http://purl.org/coar/version/c_b1a7d7d4d402bcce
format http://purl.org/coar/version/c_b1a7d7d4d402bcce
dc.identifier.uri.none.fl_str_mv https://noesis.uis.edu.co/handle/20.500.14071/25145
dc.identifier.instname.none.fl_str_mv Universidad Industrial de Santander
dc.identifier.reponame.none.fl_str_mv Universidad Industrial de Santander
dc.identifier.repourl.none.fl_str_mv https://noesis.uis.edu.co
url https://noesis.uis.edu.co/handle/20.500.14071/25145
https://noesis.uis.edu.co
identifier_str_mv Universidad Industrial de Santander
dc.language.iso.none.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv http://creativecommons.org/licenses/by/4.0/
dc.rights.coar.fl_str_mv http://purl.org/coar/access_right/c_abf2
dc.rights.license.none.fl_str_mv Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)
dc.rights.uri.none.fl_str_mv http://creativecommons.org/licenses/by-nc/4.0
dc.rights.creativecommons.none.fl_str_mv Atribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)
rights_invalid_str_mv Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)
http://creativecommons.org/licenses/by/4.0/
http://creativecommons.org/licenses/by-nc/4.0
Atribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)
http://purl.org/coar/access_right/c_abf2
dc.format.mimetype.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidad Industrial de Santander
dc.publisher.faculty.none.fl_str_mv Facultad de Ingenierías Fisicomecánicas
dc.publisher.program.none.fl_str_mv Ingeniería de Sistemas
dc.publisher.school.none.fl_str_mv Escuela de Ingeniería de Sistemas e Informática
publisher.none.fl_str_mv Universidad Industrial de Santander
institution Universidad Industrial de Santander
bitstream.url.fl_str_mv https://noesis.uis.edu.co/bitstreams/a85604b3-eff3-4f14-8020-85aaf90a9352/download
https://noesis.uis.edu.co/bitstreams/dcc0f5a6-57b5-4aa1-a40c-8b69cb300fd4/download
https://noesis.uis.edu.co/bitstreams/e9dc88c2-1e42-434b-913e-219086c75a3d/download
bitstream.checksum.fl_str_mv a7caf3a4e3ecf0eb185cc67e8b38dba3
5f5d7d793a08aa288856a4344e9521a8
543108921e6905eea1a029269b8ceea5
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv DSpace at UIS
repository.mail.fl_str_mv noesis@uis.edu.co
_version_ 1814095174706397184
spelling Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)http://creativecommons.org/licenses/by/4.0/http://creativecommons.org/licenses/by-nc/4.0Atribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)http://purl.org/coar/access_right/c_abf2Escobar Ramírez, Juan CarlosBarrios Hernández, Carlos JaimeUribe Espinosa, Rosemberg José2024-03-03T18:38:22Z20112024-03-03T18:38:22Z20112011https://noesis.uis.edu.co/handle/20.500.14071/25145Universidad Industrial de SantanderUniversidad Industrial de Santanderhttps://noesis.uis.edu.coPoder contar con un nivel de tolerancia a fallas que se presentan en un momento dado dentro de estructuras clúster es indispensable para que el tiempo de cómputo utilizado junto con los cálculos realizados no se pierdan. En la creación de un clúster se usan herramientas que conforman lo que se conoce como un middleware que permite la calendarización y administración de recursos. OAR es la herramienta que administra los recursos que hacen parte del clúster facilitando de cierta manera su creación y manejo, mientras que Computemode es una herramienta que permite crear un clúster ligero a partir de recursos ociosos administrándolos con OAR. Ninguna de estas herramientas cuenta con un sistema que le permita responder a fallas de infraestructura eléctrica, nodos, equipos de redes, entre otras, lo que crea inconformismo en los usuarios que ven a esta pérdida de tiempo de cómputo como un atraso en sus proyectos. Dentro de la tolerancia a fallas, la creación de checkpoints (puntos de chequeo) es una solución que permite presentar una respuesta a más de una falla y a la vez crea un sentimiento de seguridad en el usuario de la estructura de computación de alto rendimiento. Al contar con un respaldo de la información que se va obteniendo, se incrementaría el uso de estas plataformas, al aumentar la confianza en el uso de estas estructuras, especialmente en un Clúster basado en Computemode. Este proyecto busca realizar una investigación sobre los tipos de fallas que se pueden presentar categorizarlas y buscar una posible solución, además de las diferentes opciones de creación de checkpoints, su aplicabilidad, funcionamiento y compatibilidad para escoger la más apropiada e integrarla a Computemode y así dotarlo de un sistema de tolerancias a fallas. 1 Trabajo de grado. Modalidad:PregradoIngeniero de SistemasAble to have a fault tolerance level that occur in a given time in those structures is essential for the computing time used along the done calculation do not get lost In a cluster creation are used tools known as a middleware that allows scheduling and resources management. OAR is a tool that administrates the resources that are part of the cluster, facilitating its creation and management, while Computemode is a tool that allows a light cluster creation from idle resources, managing it with OAR. None of these tools count with a system against electric infrastructure failure, nodes, network equipment, among others, creating nonconformity among users that see this computing time lost like a delay in his projects. Inside the fault tolerance, the checkpoints creation is a solution that allows present a response to more than a failure and at the same time it create a safety sense at the user about the high performance computing structure. Having a backup of the information to be obtained, would increase the use of this platforms, increasing the structure use confidence, especially in a Computemode based cluster . This project aims to conduct an investigation about the types of failures that may occur, categorize and find a possible solution, besides the different checkpoint creation options, its applicability, operation and compatibility to choose the most appropriate and integrate it to Computemode and give it a fault tolerance system 4application/pdfspaUniversidad Industrial de SantanderFacultad de Ingenierías FisicomecánicasIngeniería de SistemasEscuela de Ingeniería de Sistemas e InformáticaClústerComputemode3Tolerancia a fallasComputación de alto rendimientoPuntos de restauración (Checkpoints)Recursos ociososnúcleo (Kernel).ClusterComputemode6.Fault toleranceHigh performance computingCheckpointsidle resourceskernelAnálisis e implementación de un mecanismo de tolerancia a fallas y restauración para una infraestructura de cálculo distribuido en redes universitariasAnalysis and implementation of a fault tolerance mechanism and restoration for distributed computaton infrastructure at univeristy networks.Tesis/Trabajo de grado - Monografía - Pregradohttp://purl.org/coar/resource_type/c_7a1fhttp://purl.org/coar/version/c_b1a7d7d4d402bcceORIGINALCarta de autorización.pdfapplication/pdf510456https://noesis.uis.edu.co/bitstreams/a85604b3-eff3-4f14-8020-85aaf90a9352/downloada7caf3a4e3ecf0eb185cc67e8b38dba3MD51Documento.pdfapplication/pdf2542921https://noesis.uis.edu.co/bitstreams/dcc0f5a6-57b5-4aa1-a40c-8b69cb300fd4/download5f5d7d793a08aa288856a4344e9521a8MD52Nota de proyecto.pdfapplication/pdf356949https://noesis.uis.edu.co/bitstreams/e9dc88c2-1e42-434b-913e-219086c75a3d/download543108921e6905eea1a029269b8ceea5MD5320.500.14071/25145oai:noesis.uis.edu.co:20.500.14071/251452024-03-03 13:38:22.585http://creativecommons.org/licenses/by-nc/4.0http://creativecommons.org/licenses/by/4.0/open.accesshttps://noesis.uis.edu.coDSpace at UISnoesis@uis.edu.co