Sistema de generación, administración y consulta de una librería digital de documentos para un portal web

Los portales web son grandes repositorios de información desorganizada. Muchas veces mantener una política de publicación de documentos es difícil, y finalmente cada parte de la organización publica sus documentos en lugares distintos en una estructura de carpetas particular. El acceso a los documen...

Full description

Autores:
Mahecha Nieto, Isabel Andrea
Tipo de recurso:
Fecha de publicación:
2011
Institución:
Universidad Nacional de Colombia
Repositorio:
Universidad Nacional de Colombia
Idioma:
spa
OAI Identifier:
oai:repositorio.unal.edu.co:unal/7505
Acceso en línea:
https://repositorio.unal.edu.co/handle/unal/7505
http://bdigital.unal.edu.co/3891/
Palabra clave:
02 Bibliotecología y ciencias de la información / Library and information sciences
62 Ingeniería y operaciones afines / Engineering
Minería de documentos Web
Recuperación de información
Portales Web
Librerías digitales / Document web mining
Information retrieval
Websites
Digital libraries
Rights
openAccess
License
Atribución-NoComercial 4.0 Internacional
id UNACIONAL2_4794c4ebecd83cd1799e1fc7ef23f15a
oai_identifier_str oai:repositorio.unal.edu.co:unal/7505
network_acronym_str UNACIONAL2
network_name_str Universidad Nacional de Colombia
repository_id_str
dc.title.spa.fl_str_mv Sistema de generación, administración y consulta de una librería digital de documentos para un portal web
dc.title.translated.Spa.fl_str_mv Generation system, management and search of a digital library of documents for a website
title Sistema de generación, administración y consulta de una librería digital de documentos para un portal web
spellingShingle Sistema de generación, administración y consulta de una librería digital de documentos para un portal web
02 Bibliotecología y ciencias de la información / Library and information sciences
62 Ingeniería y operaciones afines / Engineering
Minería de documentos Web
Recuperación de información
Portales Web
Librerías digitales / Document web mining
Information retrieval
Websites
Digital libraries
title_short Sistema de generación, administración y consulta de una librería digital de documentos para un portal web
title_full Sistema de generación, administración y consulta de una librería digital de documentos para un portal web
title_fullStr Sistema de generación, administración y consulta de una librería digital de documentos para un portal web
title_full_unstemmed Sistema de generación, administración y consulta de una librería digital de documentos para un portal web
title_sort Sistema de generación, administración y consulta de una librería digital de documentos para un portal web
dc.creator.fl_str_mv Mahecha Nieto, Isabel Andrea
dc.contributor.author.spa.fl_str_mv Mahecha Nieto, Isabel Andrea
dc.contributor.spa.fl_str_mv León Guzmán, Elizabeth
dc.subject.ddc.spa.fl_str_mv 02 Bibliotecología y ciencias de la información / Library and information sciences
62 Ingeniería y operaciones afines / Engineering
topic 02 Bibliotecología y ciencias de la información / Library and information sciences
62 Ingeniería y operaciones afines / Engineering
Minería de documentos Web
Recuperación de información
Portales Web
Librerías digitales / Document web mining
Information retrieval
Websites
Digital libraries
dc.subject.proposal.spa.fl_str_mv Minería de documentos Web
Recuperación de información
Portales Web
Librerías digitales / Document web mining
Information retrieval
Websites
Digital libraries
description Los portales web son grandes repositorios de información desorganizada. Muchas veces mantener una política de publicación de documentos es difícil, y finalmente cada parte de la organización publica sus documentos en lugares distintos en una estructura de carpetas particular. El acceso a los documentos se vuelve tedioso porque las personas que necesitan un documento en particular casi siempre desconocen su ubicación. Y a pesar de los hiper-vínculos entre documentos, muchas veces el texto que identifica el enlace no es suficiente para identificar el documento al que hace referencia. Por su parte, las librerías digitales se enfocan en la organización de la información a través de colecciones que permiten agrupar documentos similares lo cual agiliza el proceso de búsqueda de documentos específicos a quienes los consultan. La creación de librerías digitales se ha convertido en una opción económica y ágil, para la organización de documentos sobre diferentes temáticas, almacenados en diversos formatos (texto, audio, imagen, vídeo) en los sitios web. En este trabajo de tesis, se propone un sistema de administración de librerías digitales web de docu- mentos que es capaz de: 1) recuperar e indexar documentos publicados en un portal web, 2) generar una estructura de librería digital y 3) clasificar y permitir la consulta de los documentos a través de una interfaz de navegación. La recuperación e indexación se hace a través de un sistema de recuperación de información. El agrupamiento de los documentos se hace a través de un componente de minería de texto que contiene herramientas para el preprocesamiento de los documentos, y un algoritmo de agrupamiento conceptual. La interfaz de usuario se compone de dos vistas principales, la interfaz de navegación y un módulo de administración. La interfaz de navegación está compuesta por un árbol de categorías y un grafo que relaciona las diferentes categorías entre sí a través de los documentos que pertenecen a cada una de ellas. La interfaz de administración permite el acceso a los parámetros del sistema para la ejecución de los procesos de indexación y agrupamiento de los documentos. El caso de estudio propuesto para probar el prototipo fueron los portales ubicados dentro del dominio web de la Universidad Nacional de Colombia, el cual ofrece el escenario de una organización con múltiples servidores. / Abstract. Web portals are great repositories of information disorganized. Many times maintain a policy of publishing documents is difficult, and eventually each part of the organization publishes its documents in different places in a particular folder structure. Access to documents becomes tedious for those who need a particular document is almost always unknown their location. And although the hyperlinks between documents, often the text that identifies the link is not sufficient to identify the referenced document. For its part, digital libraries focus on the organization of information through libraries that allow you to group similar documents which streamlines the process of searching for specific documents to those who consult them. The creation of digital libraries has become an economical and flexible for the organization of documents on various topics, stored in various formats (text, audio, image, video). In this thesis a management system web digital library of documents is proposed. This system is able to: 1) retrieving and indexing documents on a website, 2) generating a digital library structure based on the content of the web documents and 3) classifying and allowing navigation of the web documents. The indexing and retrieval of the web documents is done through a system of information retrieval extended of the Nutch utility. For generating the structure of the digital library and future classifications, the documents are grouping through a text mining techniques, the system uses tools for preprocessing such as a Lucene, and a conceptual clustering algorithm called LINGO. For exploring and navigating the documents, the system provides a user interface that is composed by a category tree and a graph that relates the different categories with each other through the documents. Additionally, the system has and a management interface that allows setting the system parameters for the processes of indexing and clustering documents. The system of the web digital library proposed was applied to a web site located within the National University of Colombia, which has an environment with multiple servers.
publishDate 2011
dc.date.issued.spa.fl_str_mv 2011
dc.date.accessioned.spa.fl_str_mv 2019-06-24T16:38:25Z
dc.date.available.spa.fl_str_mv 2019-06-24T16:38:25Z
dc.type.spa.fl_str_mv Trabajo de grado - Maestría
dc.type.driver.spa.fl_str_mv info:eu-repo/semantics/masterThesis
dc.type.version.spa.fl_str_mv info:eu-repo/semantics/acceptedVersion
dc.type.content.spa.fl_str_mv Text
dc.type.redcol.spa.fl_str_mv http://purl.org/redcol/resource_type/TM
status_str acceptedVersion
dc.identifier.uri.none.fl_str_mv https://repositorio.unal.edu.co/handle/unal/7505
dc.identifier.eprints.spa.fl_str_mv http://bdigital.unal.edu.co/3891/
url https://repositorio.unal.edu.co/handle/unal/7505
http://bdigital.unal.edu.co/3891/
dc.language.iso.spa.fl_str_mv spa
language spa
dc.relation.ispartof.spa.fl_str_mv Universidad Nacional de Colombia Sede Bogotá Facultad de Ingeniería Departamento de Ingeniería de Sistemas e Industrial
Departamento de Ingeniería de Sistemas e Industrial
dc.relation.references.spa.fl_str_mv Mahecha Nieto, Isabel Andrea (2011) Sistema de generación, administración y consulta de una librería digital de documentos para un portal web / Generation system, management and search of a digital library of documents for a website. Maestría thesis, Universidad Nacional de Colombia.
dc.rights.spa.fl_str_mv Derechos reservados - Universidad Nacional de Colombia
dc.rights.coar.fl_str_mv http://purl.org/coar/access_right/c_abf2
dc.rights.license.spa.fl_str_mv Atribución-NoComercial 4.0 Internacional
dc.rights.uri.spa.fl_str_mv http://creativecommons.org/licenses/by-nc/4.0/
dc.rights.accessrights.spa.fl_str_mv info:eu-repo/semantics/openAccess
rights_invalid_str_mv Atribución-NoComercial 4.0 Internacional
Derechos reservados - Universidad Nacional de Colombia
http://creativecommons.org/licenses/by-nc/4.0/
http://purl.org/coar/access_right/c_abf2
eu_rights_str_mv openAccess
dc.format.mimetype.spa.fl_str_mv application/pdf
institution Universidad Nacional de Colombia
bitstream.url.fl_str_mv https://repositorio.unal.edu.co/bitstream/unal/7505/1/299729-2011.pdf
https://repositorio.unal.edu.co/bitstream/unal/7505/2/299729-2011.pdf.jpg
bitstream.checksum.fl_str_mv 821d0f2f1d5932accc1bb5ae8be6212e
b30e7a6588d80f59ed744752da03c832
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositorio Institucional Universidad Nacional de Colombia
repository.mail.fl_str_mv repositorio_nal@unal.edu.co
_version_ 1814089953982808064
spelling Atribución-NoComercial 4.0 InternacionalDerechos reservados - Universidad Nacional de Colombiahttp://creativecommons.org/licenses/by-nc/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2León Guzmán, ElizabethMahecha Nieto, Isabel Andrea588a6d74-a04e-453a-855b-ed3f64f90aec3002019-06-24T16:38:25Z2019-06-24T16:38:25Z2011https://repositorio.unal.edu.co/handle/unal/7505http://bdigital.unal.edu.co/3891/Los portales web son grandes repositorios de información desorganizada. Muchas veces mantener una política de publicación de documentos es difícil, y finalmente cada parte de la organización publica sus documentos en lugares distintos en una estructura de carpetas particular. El acceso a los documentos se vuelve tedioso porque las personas que necesitan un documento en particular casi siempre desconocen su ubicación. Y a pesar de los hiper-vínculos entre documentos, muchas veces el texto que identifica el enlace no es suficiente para identificar el documento al que hace referencia. Por su parte, las librerías digitales se enfocan en la organización de la información a través de colecciones que permiten agrupar documentos similares lo cual agiliza el proceso de búsqueda de documentos específicos a quienes los consultan. La creación de librerías digitales se ha convertido en una opción económica y ágil, para la organización de documentos sobre diferentes temáticas, almacenados en diversos formatos (texto, audio, imagen, vídeo) en los sitios web. En este trabajo de tesis, se propone un sistema de administración de librerías digitales web de docu- mentos que es capaz de: 1) recuperar e indexar documentos publicados en un portal web, 2) generar una estructura de librería digital y 3) clasificar y permitir la consulta de los documentos a través de una interfaz de navegación. La recuperación e indexación se hace a través de un sistema de recuperación de información. El agrupamiento de los documentos se hace a través de un componente de minería de texto que contiene herramientas para el preprocesamiento de los documentos, y un algoritmo de agrupamiento conceptual. La interfaz de usuario se compone de dos vistas principales, la interfaz de navegación y un módulo de administración. La interfaz de navegación está compuesta por un árbol de categorías y un grafo que relaciona las diferentes categorías entre sí a través de los documentos que pertenecen a cada una de ellas. La interfaz de administración permite el acceso a los parámetros del sistema para la ejecución de los procesos de indexación y agrupamiento de los documentos. El caso de estudio propuesto para probar el prototipo fueron los portales ubicados dentro del dominio web de la Universidad Nacional de Colombia, el cual ofrece el escenario de una organización con múltiples servidores. / Abstract. Web portals are great repositories of information disorganized. Many times maintain a policy of publishing documents is difficult, and eventually each part of the organization publishes its documents in different places in a particular folder structure. Access to documents becomes tedious for those who need a particular document is almost always unknown their location. And although the hyperlinks between documents, often the text that identifies the link is not sufficient to identify the referenced document. For its part, digital libraries focus on the organization of information through libraries that allow you to group similar documents which streamlines the process of searching for specific documents to those who consult them. The creation of digital libraries has become an economical and flexible for the organization of documents on various topics, stored in various formats (text, audio, image, video). In this thesis a management system web digital library of documents is proposed. This system is able to: 1) retrieving and indexing documents on a website, 2) generating a digital library structure based on the content of the web documents and 3) classifying and allowing navigation of the web documents. The indexing and retrieval of the web documents is done through a system of information retrieval extended of the Nutch utility. For generating the structure of the digital library and future classifications, the documents are grouping through a text mining techniques, the system uses tools for preprocessing such as a Lucene, and a conceptual clustering algorithm called LINGO. For exploring and navigating the documents, the system provides a user interface that is composed by a category tree and a graph that relates the different categories with each other through the documents. Additionally, the system has and a management interface that allows setting the system parameters for the processes of indexing and clustering documents. The system of the web digital library proposed was applied to a web site located within the National University of Colombia, which has an environment with multiple servers.Maestríaapplication/pdfspaUniversidad Nacional de Colombia Sede Bogotá Facultad de Ingeniería Departamento de Ingeniería de Sistemas e IndustrialDepartamento de Ingeniería de Sistemas e IndustrialMahecha Nieto, Isabel Andrea (2011) Sistema de generación, administración y consulta de una librería digital de documentos para un portal web / Generation system, management and search of a digital library of documents for a website. Maestría thesis, Universidad Nacional de Colombia.02 Bibliotecología y ciencias de la información / Library and information sciences62 Ingeniería y operaciones afines / EngineeringMinería de documentos WebRecuperación de informaciónPortales WebLibrerías digitales / Document web miningInformation retrievalWebsitesDigital librariesSistema de generación, administración y consulta de una librería digital de documentos para un portal webGeneration system, management and search of a digital library of documents for a websiteTrabajo de grado - Maestríainfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/acceptedVersionTexthttp://purl.org/redcol/resource_type/TMORIGINAL299729-2011.pdfapplication/pdf3514915https://repositorio.unal.edu.co/bitstream/unal/7505/1/299729-2011.pdf821d0f2f1d5932accc1bb5ae8be6212eMD51THUMBNAIL299729-2011.pdf.jpg299729-2011.pdf.jpgGenerated Thumbnailimage/jpeg5015https://repositorio.unal.edu.co/bitstream/unal/7505/2/299729-2011.pdf.jpgb30e7a6588d80f59ed744752da03c832MD52unal/7505oai:repositorio.unal.edu.co:unal/75052022-10-31 18:01:18.907Repositorio Institucional Universidad Nacional de Colombiarepositorio_nal@unal.edu.co