Modelo de un Meta Buscador que Realiza Agrupación de Documentos Web, Enriquecido con una Taxonomía, Ontologías e Información del Usuario
In pursuing the central theme of this Ph.D. thesis, which is effective web search, the author seeks through synergistic combination, to make the most of the different potentials of thematic indices, traditional web search engines, and meta web search engines, bypassing the weaknesses inherent in eac...
- Autores:
-
Cobos Lozada, Carlos Alberto
- Tipo de recurso:
- Doctoral thesis
- Fecha de publicación:
- 2013
- Institución:
- Universidad Nacional de Colombia
- Repositorio:
- Universidad Nacional de Colombia
- Idioma:
- spa
- OAI Identifier:
- oai:repositorio.unal.edu.co:unal/52281
- Acceso en línea:
- https://repositorio.unal.edu.co/handle/unal/52281
http://bdigital.unal.edu.co/46605/
- Palabra clave:
- 0 Generalidades / Computer science, information and general works
62 Ingeniería y operaciones afines / Engineering
Clustering search results
Web clustering engine
Taxonomies
Ontologies
Memetic algorithm
Global-best harmony search
Balanced Bayesian information criterion
Cuckoo search
Hyper-heuristic approach
User modeling
Meta-search engine
Personalized information retrieval
Semantic search engine
Agrupación de resultados web
Motor que agrupa documentos web
Taxonomías
Ontologías
Algoritmos meméticos
Mejor búsqueda armónica global
Criterio bayesiano de información balanceado
Búsqueda cucú
Enfoque híper heurístico
Modelamiento de usuario
Meta buscador
Recuperación de información personalizada
Motor de búsqueda semántica
- Rights
- openAccess
- License
- Atribución-NoComercial 4.0 Internacional
id |
UNACIONAL2_aed7ce3479d50c3acfea29ef41d0e6ad |
---|---|
oai_identifier_str |
oai:repositorio.unal.edu.co:unal/52281 |
network_acronym_str |
UNACIONAL2 |
network_name_str |
Universidad Nacional de Colombia |
repository_id_str |
|
dc.title.spa.fl_str_mv |
Modelo de un Meta Buscador que Realiza Agrupación de Documentos Web, Enriquecido con una Taxonomía, Ontologías e Información del Usuario |
title |
Modelo de un Meta Buscador que Realiza Agrupación de Documentos Web, Enriquecido con una Taxonomía, Ontologías e Información del Usuario |
spellingShingle |
Modelo de un Meta Buscador que Realiza Agrupación de Documentos Web, Enriquecido con una Taxonomía, Ontologías e Información del Usuario 0 Generalidades / Computer science, information and general works 62 Ingeniería y operaciones afines / Engineering Clustering search results Web clustering engine Taxonomies Ontologies Memetic algorithm Global-best harmony search Balanced Bayesian information criterion Cuckoo search Hyper-heuristic approach User modeling Meta-search engine Personalized information retrieval Semantic search engine Agrupación de resultados web Motor que agrupa documentos web Taxonomías Ontologías Algoritmos meméticos Mejor búsqueda armónica global Criterio bayesiano de información balanceado Búsqueda cucú Enfoque híper heurístico Modelamiento de usuario Meta buscador Recuperación de información personalizada Motor de búsqueda semántica |
title_short |
Modelo de un Meta Buscador que Realiza Agrupación de Documentos Web, Enriquecido con una Taxonomía, Ontologías e Información del Usuario |
title_full |
Modelo de un Meta Buscador que Realiza Agrupación de Documentos Web, Enriquecido con una Taxonomía, Ontologías e Información del Usuario |
title_fullStr |
Modelo de un Meta Buscador que Realiza Agrupación de Documentos Web, Enriquecido con una Taxonomía, Ontologías e Información del Usuario |
title_full_unstemmed |
Modelo de un Meta Buscador que Realiza Agrupación de Documentos Web, Enriquecido con una Taxonomía, Ontologías e Información del Usuario |
title_sort |
Modelo de un Meta Buscador que Realiza Agrupación de Documentos Web, Enriquecido con una Taxonomía, Ontologías e Información del Usuario |
dc.creator.fl_str_mv |
Cobos Lozada, Carlos Alberto |
dc.contributor.author.spa.fl_str_mv |
Cobos Lozada, Carlos Alberto |
dc.contributor.spa.fl_str_mv |
León Guzmán, Elizabeth |
dc.subject.ddc.spa.fl_str_mv |
0 Generalidades / Computer science, information and general works 62 Ingeniería y operaciones afines / Engineering |
topic |
0 Generalidades / Computer science, information and general works 62 Ingeniería y operaciones afines / Engineering Clustering search results Web clustering engine Taxonomies Ontologies Memetic algorithm Global-best harmony search Balanced Bayesian information criterion Cuckoo search Hyper-heuristic approach User modeling Meta-search engine Personalized information retrieval Semantic search engine Agrupación de resultados web Motor que agrupa documentos web Taxonomías Ontologías Algoritmos meméticos Mejor búsqueda armónica global Criterio bayesiano de información balanceado Búsqueda cucú Enfoque híper heurístico Modelamiento de usuario Meta buscador Recuperación de información personalizada Motor de búsqueda semántica |
dc.subject.proposal.spa.fl_str_mv |
Clustering search results Web clustering engine Taxonomies Ontologies Memetic algorithm Global-best harmony search Balanced Bayesian information criterion Cuckoo search Hyper-heuristic approach User modeling Meta-search engine Personalized information retrieval Semantic search engine Agrupación de resultados web Motor que agrupa documentos web Taxonomías Ontologías Algoritmos meméticos Mejor búsqueda armónica global Criterio bayesiano de información balanceado Búsqueda cucú Enfoque híper heurístico Modelamiento de usuario Meta buscador Recuperación de información personalizada Motor de búsqueda semántica |
description |
In pursuing the central theme of this Ph.D. thesis, which is effective web search, the author seeks through synergistic combination, to make the most of the different potentials of thematic indices, traditional web search engines, and meta web search engines, bypassing the weaknesses inherent in each, when they are operating in isolation. A general taxonomy of knowledge, ontologies, and user information (user profile and user feedback) are synergistically combined, together with the clustering of web results in a meta search model that brings up for the user only those results (documents) of greatest relevance, thereby reducing the time spent by users on searches. The proposed model includes five main components. The first component is responsible for supporting the query expansion of the user based on the semantic relationship (extracted from ontologies that are organized in a taxonomic hierarchy) of the terms that each user has stored in their profile. The second component is responsible for search result acquisition from traditional web search engines (Google, Yahoo! and Bing). The third component is responsible for pre-processing documents and generating two representations of them, one based on the vector space model and another based on frequent phrases. The fourth component is responsible for cluster construction and labeling, for which there are three heuristic algorithms that perform clustering based on the vector space representation of the results, and labeling based on frequent phrase representation. The fifth component is responsible for visualization of the resulting clusters, which involves the presentation of search results organized into thematic groups (folders) and updating of the user profile based on the user feedback (relevant or not relevant). The cluster construction and labeling component is supported by three new heuristic algorithms based on the following global search strategies: global-best harmony search, cuckoo search and a genetic algorithm. The K-means algorithm is employed as a local search improvement strategy in each of the algorithms. A new fitness function, called Balanced Bayesian Information Criterion guides the evolution process of these algorithms and is proposed from the genetic programming approach. A hyper-heuristic framework is also presented and used to evaluate a wide set of heuristics that can be used to solve the problem of web result clustering. The evaluation process of the model and the algorithms is based on synthetic data sets (from traditional repositories) and answers provided by a real population of users. The evaluation is supported by traditional validation metrics from the information retrieval field (precision, recall, F-measure, accuracy, and fall-out) and from user satisfaction (utility of each cluster, precision of allocation of documents in each cluster and their order, quality of labels for each cluster, and the Subtopic Search Length under k document sufficiency - SSLk- measure used for assessing the ease with which the users can use the clustering results). The results obtained are compared against results delivered by other state of the art algorithms, among them Bisecting K-means, STC and Lingo. |
publishDate |
2013 |
dc.date.issued.spa.fl_str_mv |
2013 |
dc.date.accessioned.spa.fl_str_mv |
2019-06-29T13:57:07Z |
dc.date.available.spa.fl_str_mv |
2019-06-29T13:57:07Z |
dc.type.spa.fl_str_mv |
Trabajo de grado - Doctorado |
dc.type.driver.spa.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
dc.type.version.spa.fl_str_mv |
info:eu-repo/semantics/acceptedVersion |
dc.type.coar.spa.fl_str_mv |
http://purl.org/coar/resource_type/c_db06 |
dc.type.content.spa.fl_str_mv |
Text |
dc.type.redcol.spa.fl_str_mv |
http://purl.org/redcol/resource_type/TD |
format |
http://purl.org/coar/resource_type/c_db06 |
status_str |
acceptedVersion |
dc.identifier.uri.none.fl_str_mv |
https://repositorio.unal.edu.co/handle/unal/52281 |
dc.identifier.eprints.spa.fl_str_mv |
http://bdigital.unal.edu.co/46605/ |
url |
https://repositorio.unal.edu.co/handle/unal/52281 http://bdigital.unal.edu.co/46605/ |
dc.language.iso.spa.fl_str_mv |
spa |
language |
spa |
dc.relation.ispartof.spa.fl_str_mv |
Universidad Nacional de Colombia Sede Bogotá Facultad de Ingeniería Facultad de Ingeniería |
dc.relation.references.spa.fl_str_mv |
Cobos Lozada, Carlos Alberto (2013) Modelo de un Meta Buscador que Realiza Agrupación de Documentos Web, Enriquecido con una Taxonomía, Ontologías e Información del Usuario. Doctorado thesis, Universidad Nacional de Colombia. |
dc.rights.spa.fl_str_mv |
Derechos reservados - Universidad Nacional de Colombia |
dc.rights.coar.fl_str_mv |
http://purl.org/coar/access_right/c_abf2 |
dc.rights.license.spa.fl_str_mv |
Atribución-NoComercial 4.0 Internacional |
dc.rights.uri.spa.fl_str_mv |
http://creativecommons.org/licenses/by-nc/4.0/ |
dc.rights.accessrights.spa.fl_str_mv |
info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Atribución-NoComercial 4.0 Internacional Derechos reservados - Universidad Nacional de Colombia http://creativecommons.org/licenses/by-nc/4.0/ http://purl.org/coar/access_right/c_abf2 |
eu_rights_str_mv |
openAccess |
dc.format.mimetype.spa.fl_str_mv |
application/pdf |
institution |
Universidad Nacional de Colombia |
bitstream.url.fl_str_mv |
https://repositorio.unal.edu.co/bitstream/unal/52281/1/299810.2013.pdf https://repositorio.unal.edu.co/bitstream/unal/52281/2/299810.2013.pdf.jpg |
bitstream.checksum.fl_str_mv |
cca7c420eb2f4e4f6f244966b38bd468 972a648513646152510a82edc5a607ab |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Repositorio Institucional Universidad Nacional de Colombia |
repository.mail.fl_str_mv |
repositorio_nal@unal.edu.co |
_version_ |
1814089483102978048 |
spelling |
Atribución-NoComercial 4.0 InternacionalDerechos reservados - Universidad Nacional de Colombiahttp://creativecommons.org/licenses/by-nc/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2León Guzmán, ElizabethCobos Lozada, Carlos Alberto062b3d97-2502-4b55-a7ca-349c629250f73002019-06-29T13:57:07Z2019-06-29T13:57:07Z2013https://repositorio.unal.edu.co/handle/unal/52281http://bdigital.unal.edu.co/46605/In pursuing the central theme of this Ph.D. thesis, which is effective web search, the author seeks through synergistic combination, to make the most of the different potentials of thematic indices, traditional web search engines, and meta web search engines, bypassing the weaknesses inherent in each, when they are operating in isolation. A general taxonomy of knowledge, ontologies, and user information (user profile and user feedback) are synergistically combined, together with the clustering of web results in a meta search model that brings up for the user only those results (documents) of greatest relevance, thereby reducing the time spent by users on searches. The proposed model includes five main components. The first component is responsible for supporting the query expansion of the user based on the semantic relationship (extracted from ontologies that are organized in a taxonomic hierarchy) of the terms that each user has stored in their profile. The second component is responsible for search result acquisition from traditional web search engines (Google, Yahoo! and Bing). The third component is responsible for pre-processing documents and generating two representations of them, one based on the vector space model and another based on frequent phrases. The fourth component is responsible for cluster construction and labeling, for which there are three heuristic algorithms that perform clustering based on the vector space representation of the results, and labeling based on frequent phrase representation. The fifth component is responsible for visualization of the resulting clusters, which involves the presentation of search results organized into thematic groups (folders) and updating of the user profile based on the user feedback (relevant or not relevant). The cluster construction and labeling component is supported by three new heuristic algorithms based on the following global search strategies: global-best harmony search, cuckoo search and a genetic algorithm. The K-means algorithm is employed as a local search improvement strategy in each of the algorithms. A new fitness function, called Balanced Bayesian Information Criterion guides the evolution process of these algorithms and is proposed from the genetic programming approach. A hyper-heuristic framework is also presented and used to evaluate a wide set of heuristics that can be used to solve the problem of web result clustering. The evaluation process of the model and the algorithms is based on synthetic data sets (from traditional repositories) and answers provided by a real population of users. The evaluation is supported by traditional validation metrics from the information retrieval field (precision, recall, F-measure, accuracy, and fall-out) and from user satisfaction (utility of each cluster, precision of allocation of documents in each cluster and their order, quality of labels for each cluster, and the Subtopic Search Length under k document sufficiency - SSLk- measure used for assessing the ease with which the users can use the clustering results). The results obtained are compared against results delivered by other state of the art algorithms, among them Bisecting K-means, STC and Lingo.Resumen. Esta tesis doctoral tiene como tema central la Búsqueda Web. En ésta se aprovecha las potencialidades de los índices temáticos, los buscadores Web tradicionales y los meta buscadores, en un modelo que evita las debilidades que cada uno de ellos tiene por separado, y permite con ello disminuir el tiempo invertido por los usuarios en las búsquedas web. Para lograr esto, se combina sinérgicamente una taxonomía general de conocimiento, ontologías de dominio específico, información del usuario y agrupación de resultados (documentos) web en un modelo de un meta buscador que presenta resultados más relevantes a las necesidades de información de los usuarios y de una forma mejor organizada. El modelo propuesto contempla cinco componentes principales. El primer componente es el encargado de soportar la expansión de la consulta del usuario, basado en la relación semántica (extraída de las ontologías que se organizan en una jerarquía taxonómica) de los términos que cada usuario ha almacenado en su perfil. El segundo componente se encarga de la adquisición de los resultados desde los buscadores web tradicionales (Google, Yahoo! y Bing). El tercer componente es responsable del pre-procesamiento de documentos y genera dos representaciones de los mismos, una basada en el modelo espacio vectorial y otra en frases frecuentes. El cuarto componente se encarga de la construcción de agrupaciones y etiquetado, para lo cual se cuenta con tres algoritmos heurísticos que realizan el agrupamiento basado en la representación espacio vectorial de los resultados y el etiquetado basado en una representación de frases frecuentes. El quinto componente se encarga de la visualización de resultados, lo que implica la presentación de los resultados de la búsqueda organizados en grupos temáticos (carpetas) y la actualización del perfil del usuario basado en la re-alimentación que éste registre sobre los resultados (relevantes o no relevantes). El componente de construcción de agrupaciones y etiquetado se soporta en tres nuevos algoritmos heurísticos basados en las siguientes estrategias de búsqueda global: la mejor búsqueda armónica global, la búsqueda cucú y un algoritmo genético. El algoritmo K-means se usa para optimizar localmente las soluciones en cada uno de los algoritmos. Una nueva función de aptitud denominada Criterio de Información Bayesiano Balanceado orienta el proceso evolutivo de estos algoritmos y fue propuesta desde un enfoque de programación genética. También se presenta el modelo de un entorno híperheurístico que sirve para evaluar un conjunto mucho más amplio de heurísticas que pueden ser usadas para resolver el problema de agrupación de resultados web. El proceso de evaluación del modelo y de los algoritmos se basa en conjuntos de datos sintéticos (de repositorios tradicionales) y en respuestas entregadas por una población real de usuarios. La evaluación se soporta en medidas tradicionales del área de recuperación de información (precisión, recuerdo, medida F, exactitud y fall-out) y de satisfacción de los usuarios (utilidad de cada grupo, organización de los resultados en los grupos, calidad de las etiquetas de los grupos y la medida de longitud de búsqueda de sub tópicos mínima para encontrar k documentos relevantes -SSLk-, usada para evaluar la facilidad con la que los usuarios usan los resultados del agrupamiento). Los resultados obtenidos se comparan con los resultados entregados por otros algoritmos del estado del arte, entre ellos: Bisecting K-means, STC y Lingo.Doctoradoapplication/pdfspaUniversidad Nacional de Colombia Sede Bogotá Facultad de IngenieríaFacultad de IngenieríaCobos Lozada, Carlos Alberto (2013) Modelo de un Meta Buscador que Realiza Agrupación de Documentos Web, Enriquecido con una Taxonomía, Ontologías e Información del Usuario. Doctorado thesis, Universidad Nacional de Colombia.0 Generalidades / Computer science, information and general works62 Ingeniería y operaciones afines / EngineeringClustering search resultsWeb clustering engineTaxonomiesOntologiesMemetic algorithmGlobal-best harmony searchBalanced Bayesian information criterionCuckoo searchHyper-heuristic approachUser modelingMeta-search enginePersonalized information retrievalSemantic search engineAgrupación de resultados webMotor que agrupa documentos webTaxonomíasOntologíasAlgoritmos meméticosMejor búsqueda armónica globalCriterio bayesiano de información balanceadoBúsqueda cucúEnfoque híper heurísticoModelamiento de usuarioMeta buscadorRecuperación de información personalizadaMotor de búsqueda semánticaModelo de un Meta Buscador que Realiza Agrupación de Documentos Web, Enriquecido con una Taxonomía, Ontologías e Información del UsuarioTrabajo de grado - Doctoradoinfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/acceptedVersionhttp://purl.org/coar/resource_type/c_db06Texthttp://purl.org/redcol/resource_type/TDORIGINAL299810.2013.pdfapplication/pdf3616269https://repositorio.unal.edu.co/bitstream/unal/52281/1/299810.2013.pdfcca7c420eb2f4e4f6f244966b38bd468MD51THUMBNAIL299810.2013.pdf.jpg299810.2013.pdf.jpgGenerated Thumbnailimage/jpeg5495https://repositorio.unal.edu.co/bitstream/unal/52281/2/299810.2013.pdf.jpg972a648513646152510a82edc5a607abMD52unal/52281oai:repositorio.unal.edu.co:unal/522812024-03-01 23:07:50.664Repositorio Institucional Universidad Nacional de Colombiarepositorio_nal@unal.edu.co |