Sistema de Recuperación de Información Utilizando Índices Combinados de Términos y Extracción de Información

En este trabajo se presenta un sistema de recuperación de información basado en índices combinados de términos y extracción de información. Este sistema utiliza entidades nominales y correferencias para enriquecer a un índice combinado de términos, con el _n de disminuir el tiempo de búsqueda requer...

Full description

Autores:
Ariza Ladino, Carlos Fernando
Tipo de recurso:
Fecha de publicación:
2012
Institución:
Universidad Nacional de Colombia
Repositorio:
Universidad Nacional de Colombia
Idioma:
spa
OAI Identifier:
oai:repositorio.unal.edu.co:unal/9961
Acceso en línea:
https://repositorio.unal.edu.co/handle/unal/9961
http://bdigital.unal.edu.co/7020/
Palabra clave:
0 Generalidades / Computer science, information and general works
Índice de Frases
Recuperación de Información
Extracción de Información
Reconocimiento de Entidades Nominales
Resolución de Correferencias
Clasificación Jerárquica / Phrase index
Information Retrieval
Information Extraction
Named entity recognition
Coreference resolution
Rights
openAccess
License
Atribución-NoComercial 4.0 Internacional
Description
Summary:En este trabajo se presenta un sistema de recuperación de información basado en índices combinados de términos y extracción de información. Este sistema utiliza entidades nominales y correferencias para enriquecer a un índice combinado de términos, con el _n de disminuir el tiempo de búsqueda requerido para solucionar consultas basadas en frases y obtener mayor cantidad de documentos solución. Para esto se hace uso de un índice de frases parciales que almacena n-gramas basados en entidades nominales y palabras de alta frecuencia. El sistema también posee un modelo de clasificación jerárquica de documentos recuperados que asume que la consulta es un único término. Los resultados obtenidos demuestran que el uso del índice de frases propuesto como alternativa del índice de frases parciales tradicional permite disminuir el tiempo de búsqueda para las consultas que contienen entidades nominales y que la resolución de correferencias en los documentos tiene gran potencial para mejorar la medida de recuerdo del sistema. / Abstract. In this document an information retrieval system based on combined indexes and information extraction is shown. The system uses named entity recognition and coreference resolution to add information to a combined index in order to decrease the search time employed for solving phrase queries and to obtain greater quantities of retrieved documents. The combined index includes a proposed partial phrase index that stores n-grams based on named entities and stopwords. The system also uses a ranking retrieval model that assumes that the query is a single term. The results obtained with our system as compared to the traditional partial phrase index, decreases the search time for solving phrase queries. It is also concluded that the coreference resolution process is potentially a great tool for improving the recall measure of the system.