Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos

Recientemente los algoritmos basados en metaheurísticas han mostrado buenos resultados para generar resúmenes automáticos comparados con otros métodos del estado del arte, sin embargo, aunque los algoritmos meméticos han contribuido en la resolución de diversos problemas de optimización combinatoria...

Full description

Autores:
Mendoza Becerra, Martha Eliana
Tipo de recurso:
Doctoral thesis
Fecha de publicación:
2015
Institución:
Universidad Nacional de Colombia
Repositorio:
Universidad Nacional de Colombia
Idioma:
spa
OAI Identifier:
oai:repositorio.unal.edu.co:unal/56120
Acceso en línea:
https://repositorio.unal.edu.co/handle/unal/56120
http://bdigital.unal.edu.co/51728/
Palabra clave:
0 Generalidades / Computer science, information and general works
Generación automática de resúmenes de un solo documento
Generación automática de resúmenes de múltiples documentos
Algoritmos meméticos
Búsqueda local guiada
Búsqueda local codiciosa
Extractive single-document summarization
Extractive multi-document summarization
Memetic algorithms
Guided local search
Greedy local search
Rights
restrictedAccess
License
Atribución-NoComercial 4.0 Internacional
Description
Summary:Recientemente los algoritmos basados en metaheurísticas han mostrado buenos resultados para generar resúmenes automáticos comparados con otros métodos del estado del arte, sin embargo, aunque los algoritmos meméticos han contribuido en la resolución de diversos problemas de optimización combinatoria con excelentes resultados, no han sido usados para resolver el problema de generación automática de resúmenes. Esta tesis doctoral está enmarcada en el área de investigación de generación automática de resúmenes de textos, y propone dos algoritmos meméticos para generar automáticamente resúmenes extractivos, uno para un solo documento y otro para múltiples documentos. Los algoritmos meméticos propuestos se componen de: una función objetivo que busca que el resumen contenga las principales temáticas de los documentos, esquemas de evolución a nivel de población (selección, cruce, mutación y reemplazo de los agentes) buscando mantener un balance entre calidad y diversidad de los agentes, y un algoritmo de búsqueda local que permite la explotación de la vecindad de las soluciones generadas incluyendo conocimiento del problema. La experimentación de los algoritmos se realiza sobre conjuntos de datos estándar, midiendo la calidad del resumen generado (comparándolo con resúmenes de referencia) por medio de medidas aceptadas por la comunidad científica. En la experimentación los algoritmos propuestos se comparan con otros métodos del estado del arte, logrando que el algoritmo para un documento ocupe el primer puesto y que el algoritmo para múltiples documentos se ubique de segundo.