Prototipo de sistema para el resumen automático de textos en castellano en un dominio específico

Este proyecto fue concebido con el objetivo de contribuir a la solución de la indispensable necesidad de las organizaciones de manejar y explotar eficientemente los grandes volúmenes de información sobre los cuales operan en la actualidad. Este aporte se enfoca específicamente en el área de resumen...

Full description

Autores:
Beltrán Arrieta, Rolando
Tipo de recurso:
Fecha de publicación:
2011
Institución:
Universidad Nacional de Colombia
Repositorio:
Universidad Nacional de Colombia
Idioma:
spa
OAI Identifier:
oai:repositorio.unal.edu.co:unal/7632
Acceso en línea:
https://repositorio.unal.edu.co/handle/unal/7632
http://bdigital.unal.edu.co/4069/
Palabra clave:
0 Generalidades / Computer science, information and general works
62 Ingeniería y operaciones afines / Engineering
Aprendizaje de máquina
Minería de texto
Resumen automático de texto / Machine learning
Text mining
Automatic text summarization.
Rights
openAccess
License
Atribución-NoComercial 4.0 Internacional
Description
Summary:Este proyecto fue concebido con el objetivo de contribuir a la solución de la indispensable necesidad de las organizaciones de manejar y explotar eficientemente los grandes volúmenes de información sobre los cuales operan en la actualidad. Este aporte se enfoca específicamente en el área de resumen de texto. El proyecto presenta una herramienta prototipo de software, que permite la obtención de resúmenes a partir de textos en castellano. El prototipo llamado RES-UN fue ajustado al dominio específico del calzado. Permite que el usuario introduzca artículos noticiosos sobre el calzado y obtenga un resumen que contiene los fragmentos más relevantes. Fue comparado con otras herramientas, como el creador de resúmenes de Word y mostró resultados competitivos. Durante su desarrollo se elaboró un esquema de solución fácilmente replicable y se adaptó al problema un modelo de aprendizaje de máquina, al cual se le incluyó de forma novedosa, información semántica, para extraer los fragmentos más relevantes del texto. / Abstract. This project was developed to help solve the essential organizational requirement to manage and exploit the large volumes of information on which organizations operate today. This contribution focuses specifically on the text summarization area. The project presents a prototype software tool, which allows the production of summaries from texts in Spanish. The prototype called RES-UN was adjusted to the specific domain of the footwear (calzado). It allows users to enter footwear news articles and get a summary containing the most relevant fragments. RES_UN was compared with other tools like Word summarizer, it showed competitive results. During project development, a solution scheme was created it can be easily replicated. Additionally a machine learning model was adapted, it include novel semantic information to extract relevant text fragments.