Sistema de generación, administración y consulta de una librería digital de documentos para un portal web
Los portales web son grandes repositorios de información desorganizada. Muchas veces mantener una política de publicación de documentos es difícil, y finalmente cada parte de la organización publica sus documentos en lugares distintos en una estructura de carpetas particular. El acceso a los documen...
- Autores:
-
Mahecha Nieto, Isabel Andrea
- Tipo de recurso:
- Fecha de publicación:
- 2011
- Institución:
- Universidad Nacional de Colombia
- Repositorio:
- Universidad Nacional de Colombia
- Idioma:
- spa
- OAI Identifier:
- oai:repositorio.unal.edu.co:unal/7505
- Palabra clave:
- 02 Bibliotecología y ciencias de la información / Library and information sciences
62 Ingeniería y operaciones afines / Engineering
Minería de documentos Web
Recuperación de información
Portales Web
Librerías digitales / Document web mining
Information retrieval
Websites
Digital libraries
- Rights
- openAccess
- License
- Atribución-NoComercial 4.0 Internacional
id |
UNACIONAL2_4794c4ebecd83cd1799e1fc7ef23f15a |
---|---|
oai_identifier_str |
oai:repositorio.unal.edu.co:unal/7505 |
network_acronym_str |
UNACIONAL2 |
network_name_str |
Universidad Nacional de Colombia |
repository_id_str |
|
dc.title.spa.fl_str_mv |
Sistema de generación, administración y consulta de una librería digital de documentos para un portal web |
dc.title.translated.Spa.fl_str_mv |
Generation system, management and search of a digital library of documents for a website |
title |
Sistema de generación, administración y consulta de una librería digital de documentos para un portal web |
spellingShingle |
Sistema de generación, administración y consulta de una librería digital de documentos para un portal web 02 Bibliotecología y ciencias de la información / Library and information sciences 62 Ingeniería y operaciones afines / Engineering Minería de documentos Web Recuperación de información Portales Web Librerías digitales / Document web mining Information retrieval Websites Digital libraries |
title_short |
Sistema de generación, administración y consulta de una librería digital de documentos para un portal web |
title_full |
Sistema de generación, administración y consulta de una librería digital de documentos para un portal web |
title_fullStr |
Sistema de generación, administración y consulta de una librería digital de documentos para un portal web |
title_full_unstemmed |
Sistema de generación, administración y consulta de una librería digital de documentos para un portal web |
title_sort |
Sistema de generación, administración y consulta de una librería digital de documentos para un portal web |
dc.creator.fl_str_mv |
Mahecha Nieto, Isabel Andrea |
dc.contributor.author.spa.fl_str_mv |
Mahecha Nieto, Isabel Andrea |
dc.contributor.spa.fl_str_mv |
León Guzmán, Elizabeth |
dc.subject.ddc.spa.fl_str_mv |
02 Bibliotecología y ciencias de la información / Library and information sciences 62 Ingeniería y operaciones afines / Engineering |
topic |
02 Bibliotecología y ciencias de la información / Library and information sciences 62 Ingeniería y operaciones afines / Engineering Minería de documentos Web Recuperación de información Portales Web Librerías digitales / Document web mining Information retrieval Websites Digital libraries |
dc.subject.proposal.spa.fl_str_mv |
Minería de documentos Web Recuperación de información Portales Web Librerías digitales / Document web mining Information retrieval Websites Digital libraries |
description |
Los portales web son grandes repositorios de información desorganizada. Muchas veces mantener una política de publicación de documentos es difícil, y finalmente cada parte de la organización publica sus documentos en lugares distintos en una estructura de carpetas particular. El acceso a los documentos se vuelve tedioso porque las personas que necesitan un documento en particular casi siempre desconocen su ubicación. Y a pesar de los hiper-vínculos entre documentos, muchas veces el texto que identifica el enlace no es suficiente para identificar el documento al que hace referencia. Por su parte, las librerías digitales se enfocan en la organización de la información a través de colecciones que permiten agrupar documentos similares lo cual agiliza el proceso de búsqueda de documentos específicos a quienes los consultan. La creación de librerías digitales se ha convertido en una opción económica y ágil, para la organización de documentos sobre diferentes temáticas, almacenados en diversos formatos (texto, audio, imagen, vídeo) en los sitios web. En este trabajo de tesis, se propone un sistema de administración de librerías digitales web de docu- mentos que es capaz de: 1) recuperar e indexar documentos publicados en un portal web, 2) generar una estructura de librería digital y 3) clasificar y permitir la consulta de los documentos a través de una interfaz de navegación. La recuperación e indexación se hace a través de un sistema de recuperación de información. El agrupamiento de los documentos se hace a través de un componente de minería de texto que contiene herramientas para el preprocesamiento de los documentos, y un algoritmo de agrupamiento conceptual. La interfaz de usuario se compone de dos vistas principales, la interfaz de navegación y un módulo de administración. La interfaz de navegación está compuesta por un árbol de categorías y un grafo que relaciona las diferentes categorías entre sí a través de los documentos que pertenecen a cada una de ellas. La interfaz de administración permite el acceso a los parámetros del sistema para la ejecución de los procesos de indexación y agrupamiento de los documentos. El caso de estudio propuesto para probar el prototipo fueron los portales ubicados dentro del dominio web de la Universidad Nacional de Colombia, el cual ofrece el escenario de una organización con múltiples servidores. / Abstract. Web portals are great repositories of information disorganized. Many times maintain a policy of publishing documents is difficult, and eventually each part of the organization publishes its documents in different places in a particular folder structure. Access to documents becomes tedious for those who need a particular document is almost always unknown their location. And although the hyperlinks between documents, often the text that identifies the link is not sufficient to identify the referenced document. For its part, digital libraries focus on the organization of information through libraries that allow you to group similar documents which streamlines the process of searching for specific documents to those who consult them. The creation of digital libraries has become an economical and flexible for the organization of documents on various topics, stored in various formats (text, audio, image, video). In this thesis a management system web digital library of documents is proposed. This system is able to: 1) retrieving and indexing documents on a website, 2) generating a digital library structure based on the content of the web documents and 3) classifying and allowing navigation of the web documents. The indexing and retrieval of the web documents is done through a system of information retrieval extended of the Nutch utility. For generating the structure of the digital library and future classifications, the documents are grouping through a text mining techniques, the system uses tools for preprocessing such as a Lucene, and a conceptual clustering algorithm called LINGO. For exploring and navigating the documents, the system provides a user interface that is composed by a category tree and a graph that relates the different categories with each other through the documents. Additionally, the system has and a management interface that allows setting the system parameters for the processes of indexing and clustering documents. The system of the web digital library proposed was applied to a web site located within the National University of Colombia, which has an environment with multiple servers. |
publishDate |
2011 |
dc.date.issued.spa.fl_str_mv |
2011 |
dc.date.accessioned.spa.fl_str_mv |
2019-06-24T16:38:25Z |
dc.date.available.spa.fl_str_mv |
2019-06-24T16:38:25Z |
dc.type.spa.fl_str_mv |
Trabajo de grado - Maestría |
dc.type.driver.spa.fl_str_mv |
info:eu-repo/semantics/masterThesis |
dc.type.version.spa.fl_str_mv |
info:eu-repo/semantics/acceptedVersion |
dc.type.content.spa.fl_str_mv |
Text |
dc.type.redcol.spa.fl_str_mv |
http://purl.org/redcol/resource_type/TM |
status_str |
acceptedVersion |
dc.identifier.uri.none.fl_str_mv |
https://repositorio.unal.edu.co/handle/unal/7505 |
dc.identifier.eprints.spa.fl_str_mv |
http://bdigital.unal.edu.co/3891/ |
url |
https://repositorio.unal.edu.co/handle/unal/7505 http://bdigital.unal.edu.co/3891/ |
dc.language.iso.spa.fl_str_mv |
spa |
language |
spa |
dc.relation.ispartof.spa.fl_str_mv |
Universidad Nacional de Colombia Sede Bogotá Facultad de Ingeniería Departamento de Ingeniería de Sistemas e Industrial Departamento de Ingeniería de Sistemas e Industrial |
dc.relation.references.spa.fl_str_mv |
Mahecha Nieto, Isabel Andrea (2011) Sistema de generación, administración y consulta de una librería digital de documentos para un portal web / Generation system, management and search of a digital library of documents for a website. Maestría thesis, Universidad Nacional de Colombia. |
dc.rights.spa.fl_str_mv |
Derechos reservados - Universidad Nacional de Colombia |
dc.rights.coar.fl_str_mv |
http://purl.org/coar/access_right/c_abf2 |
dc.rights.license.spa.fl_str_mv |
Atribución-NoComercial 4.0 Internacional |
dc.rights.uri.spa.fl_str_mv |
http://creativecommons.org/licenses/by-nc/4.0/ |
dc.rights.accessrights.spa.fl_str_mv |
info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Atribución-NoComercial 4.0 Internacional Derechos reservados - Universidad Nacional de Colombia http://creativecommons.org/licenses/by-nc/4.0/ http://purl.org/coar/access_right/c_abf2 |
eu_rights_str_mv |
openAccess |
dc.format.mimetype.spa.fl_str_mv |
application/pdf |
institution |
Universidad Nacional de Colombia |
bitstream.url.fl_str_mv |
https://repositorio.unal.edu.co/bitstream/unal/7505/1/299729-2011.pdf https://repositorio.unal.edu.co/bitstream/unal/7505/2/299729-2011.pdf.jpg |
bitstream.checksum.fl_str_mv |
821d0f2f1d5932accc1bb5ae8be6212e b30e7a6588d80f59ed744752da03c832 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Repositorio Institucional Universidad Nacional de Colombia |
repository.mail.fl_str_mv |
repositorio_nal@unal.edu.co |
_version_ |
1814089953982808064 |
spelling |
Atribución-NoComercial 4.0 InternacionalDerechos reservados - Universidad Nacional de Colombiahttp://creativecommons.org/licenses/by-nc/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2León Guzmán, ElizabethMahecha Nieto, Isabel Andrea588a6d74-a04e-453a-855b-ed3f64f90aec3002019-06-24T16:38:25Z2019-06-24T16:38:25Z2011https://repositorio.unal.edu.co/handle/unal/7505http://bdigital.unal.edu.co/3891/Los portales web son grandes repositorios de información desorganizada. Muchas veces mantener una política de publicación de documentos es difícil, y finalmente cada parte de la organización publica sus documentos en lugares distintos en una estructura de carpetas particular. El acceso a los documentos se vuelve tedioso porque las personas que necesitan un documento en particular casi siempre desconocen su ubicación. Y a pesar de los hiper-vínculos entre documentos, muchas veces el texto que identifica el enlace no es suficiente para identificar el documento al que hace referencia. Por su parte, las librerías digitales se enfocan en la organización de la información a través de colecciones que permiten agrupar documentos similares lo cual agiliza el proceso de búsqueda de documentos específicos a quienes los consultan. La creación de librerías digitales se ha convertido en una opción económica y ágil, para la organización de documentos sobre diferentes temáticas, almacenados en diversos formatos (texto, audio, imagen, vídeo) en los sitios web. En este trabajo de tesis, se propone un sistema de administración de librerías digitales web de docu- mentos que es capaz de: 1) recuperar e indexar documentos publicados en un portal web, 2) generar una estructura de librería digital y 3) clasificar y permitir la consulta de los documentos a través de una interfaz de navegación. La recuperación e indexación se hace a través de un sistema de recuperación de información. El agrupamiento de los documentos se hace a través de un componente de minería de texto que contiene herramientas para el preprocesamiento de los documentos, y un algoritmo de agrupamiento conceptual. La interfaz de usuario se compone de dos vistas principales, la interfaz de navegación y un módulo de administración. La interfaz de navegación está compuesta por un árbol de categorías y un grafo que relaciona las diferentes categorías entre sí a través de los documentos que pertenecen a cada una de ellas. La interfaz de administración permite el acceso a los parámetros del sistema para la ejecución de los procesos de indexación y agrupamiento de los documentos. El caso de estudio propuesto para probar el prototipo fueron los portales ubicados dentro del dominio web de la Universidad Nacional de Colombia, el cual ofrece el escenario de una organización con múltiples servidores. / Abstract. Web portals are great repositories of information disorganized. Many times maintain a policy of publishing documents is difficult, and eventually each part of the organization publishes its documents in different places in a particular folder structure. Access to documents becomes tedious for those who need a particular document is almost always unknown their location. And although the hyperlinks between documents, often the text that identifies the link is not sufficient to identify the referenced document. For its part, digital libraries focus on the organization of information through libraries that allow you to group similar documents which streamlines the process of searching for specific documents to those who consult them. The creation of digital libraries has become an economical and flexible for the organization of documents on various topics, stored in various formats (text, audio, image, video). In this thesis a management system web digital library of documents is proposed. This system is able to: 1) retrieving and indexing documents on a website, 2) generating a digital library structure based on the content of the web documents and 3) classifying and allowing navigation of the web documents. The indexing and retrieval of the web documents is done through a system of information retrieval extended of the Nutch utility. For generating the structure of the digital library and future classifications, the documents are grouping through a text mining techniques, the system uses tools for preprocessing such as a Lucene, and a conceptual clustering algorithm called LINGO. For exploring and navigating the documents, the system provides a user interface that is composed by a category tree and a graph that relates the different categories with each other through the documents. Additionally, the system has and a management interface that allows setting the system parameters for the processes of indexing and clustering documents. The system of the web digital library proposed was applied to a web site located within the National University of Colombia, which has an environment with multiple servers.Maestríaapplication/pdfspaUniversidad Nacional de Colombia Sede Bogotá Facultad de Ingeniería Departamento de Ingeniería de Sistemas e IndustrialDepartamento de Ingeniería de Sistemas e IndustrialMahecha Nieto, Isabel Andrea (2011) Sistema de generación, administración y consulta de una librería digital de documentos para un portal web / Generation system, management and search of a digital library of documents for a website. Maestría thesis, Universidad Nacional de Colombia.02 Bibliotecología y ciencias de la información / Library and information sciences62 Ingeniería y operaciones afines / EngineeringMinería de documentos WebRecuperación de informaciónPortales WebLibrerías digitales / Document web miningInformation retrievalWebsitesDigital librariesSistema de generación, administración y consulta de una librería digital de documentos para un portal webGeneration system, management and search of a digital library of documents for a websiteTrabajo de grado - Maestríainfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/acceptedVersionTexthttp://purl.org/redcol/resource_type/TMORIGINAL299729-2011.pdfapplication/pdf3514915https://repositorio.unal.edu.co/bitstream/unal/7505/1/299729-2011.pdf821d0f2f1d5932accc1bb5ae8be6212eMD51THUMBNAIL299729-2011.pdf.jpg299729-2011.pdf.jpgGenerated Thumbnailimage/jpeg5015https://repositorio.unal.edu.co/bitstream/unal/7505/2/299729-2011.pdf.jpgb30e7a6588d80f59ed744752da03c832MD52unal/7505oai:repositorio.unal.edu.co:unal/75052022-10-31 18:01:18.907Repositorio Institucional Universidad Nacional de Colombiarepositorio_nal@unal.edu.co |