A Genetic Clustering Algorithm for Automatic Text Summarization
Abstract. Automatic text summarization has become a relevant topic due to the information overload. This automatization aims to help humans and machines to deal with the vast amount of text data (structured and un-structured) offered on the web and deep web. In this research a novel approach for aut...
- Autores:
-
Suaréz Benjumea, Sebastian
- Tipo de recurso:
- Fecha de publicación:
- 2016
- Institución:
- Universidad Nacional de Colombia
- Repositorio:
- Universidad Nacional de Colombia
- Idioma:
- spa
- OAI Identifier:
- oai:repositorio.unal.edu.co:unal/57548
- Acceso en línea:
- https://repositorio.unal.edu.co/handle/unal/57548
http://bdigital.unal.edu.co/53848/
- Palabra clave:
- 0 Generalidades / Computer science, information and general works
62 Ingeniería y operaciones afines / Engineering
Text mining
Genetic algorithm
Clustering algorithm
Automatic text summarization
Single document automatic text summarization
- Rights
- openAccess
- License
- Atribución-NoComercial 4.0 Internacional
id |
UNACIONAL2_fa99538d27ea6259dcf274c371ab0e1f |
---|---|
oai_identifier_str |
oai:repositorio.unal.edu.co:unal/57548 |
network_acronym_str |
UNACIONAL2 |
network_name_str |
Universidad Nacional de Colombia |
repository_id_str |
|
spelling |
Atribución-NoComercial 4.0 InternacionalDerechos reservados - Universidad Nacional de Colombiahttp://creativecommons.org/licenses/by-nc/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2León Guzmán, ElizabethSuaréz Benjumea, Sebastianf776effe-d75c-4c2a-b8d6-728eead5020b3002019-07-02T12:57:32Z2019-07-02T12:57:32Z2016https://repositorio.unal.edu.co/handle/unal/57548http://bdigital.unal.edu.co/53848/Abstract. Automatic text summarization has become a relevant topic due to the information overload. This automatization aims to help humans and machines to deal with the vast amount of text data (structured and un-structured) offered on the web and deep web. In this research a novel approach for automatic extractive text summarization called SENCLUS is presented. Using a genetic clustering algorithm, SENCLUS clusters the sentences as close representation of the text topics using a fitness function based on redundancy and coverage, and applies a scoring function to select the most relevant sentences of each topic to be part of the extractive summary. The approach was validated using the DUC2002 data set and ROUGE summary quality measures. The results shows that the approach is representative against the state of the art methods for extractive automatic text summarization.La generación automática de resúmenes se ha posicionado como un tema de gran importancia debido a la sobrecarga informativa. El objetivo de esta tecnología es el ayudar humanos y maquinas a lidiar con el gran volumen de información en forma de texto (estructurada y no estructurada) que se encuentra en la red y en la red profunda. Esta investigación presenta un nuevo algoritmo para la generación automática de resúmenes extractivos llamado SENCLUS. Este algoritmo es capaz de detectar los temas presentes en un texto usando una técnica de agrupación genética para formar grupos de oraciones. Estos grupos de oraciones son una representación aproximada de los temas del texto y estos son formados usando una función aptitud basada en cobertura y redundancia. Una vez los grupos de oraciones son encontrados, se aplica una función puntuación para seleccionar las oraciones mas relevantes de cada tema hasta que las restricciones de longitud del resumen lo permitan. SENCLUS fue validado en una serie de experimentos en los cuales se usò el conjunto de datos DUC2002 para la generación de resúmenes de un solo documento y se usò la medida ROUGE para medir de forma automática la calidad de cada resumen. Los resultados mostraron que el enfoque propuesto es representativo al ser comparado con los algoritmos presentes en el estado del arte para la generación de resúmenes extractivos.Maestríaapplication/pdfspaUniversidad Nacional de Colombia Sede Bogotá Facultad de Ingeniería Departamento de Ingeniería de Sistemas e Industrial Ingeniería de SistemasIngeniería de SistemasSuaréz Benjumea, Sebastian (2016) A Genetic Clustering Algorithm for Automatic Text Summarization. Maestría thesis, Universidad Nacional de Colombia - Sede Bogotá.0 Generalidades / Computer science, information and general works62 Ingeniería y operaciones afines / EngineeringText miningGenetic algorithmClustering algorithmAutomatic text summarizationSingle document automatic text summarizationA Genetic Clustering Algorithm for Automatic Text SummarizationTrabajo de grado - Maestríainfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/acceptedVersionTexthttp://purl.org/redcol/resource_type/TMORIGINALsebastiansuarezbenjumea.2015.pdfapplication/pdf640385https://repositorio.unal.edu.co/bitstream/unal/57548/1/sebastiansuarezbenjumea.2015.pdfd0cef1051bb586fefe19c09a2b815e55MD51THUMBNAILsebastiansuarezbenjumea.2015.pdf.jpgsebastiansuarezbenjumea.2015.pdf.jpgGenerated Thumbnailimage/jpeg4143https://repositorio.unal.edu.co/bitstream/unal/57548/2/sebastiansuarezbenjumea.2015.pdf.jpg6d60c2221e48ed08ea4285fe0b0210aeMD52unal/57548oai:repositorio.unal.edu.co:unal/575482024-03-28 23:08:10.795Repositorio Institucional Universidad Nacional de Colombiarepositorio_nal@unal.edu.co |
dc.title.spa.fl_str_mv |
A Genetic Clustering Algorithm for Automatic Text Summarization |
title |
A Genetic Clustering Algorithm for Automatic Text Summarization |
spellingShingle |
A Genetic Clustering Algorithm for Automatic Text Summarization 0 Generalidades / Computer science, information and general works 62 Ingeniería y operaciones afines / Engineering Text mining Genetic algorithm Clustering algorithm Automatic text summarization Single document automatic text summarization |
title_short |
A Genetic Clustering Algorithm for Automatic Text Summarization |
title_full |
A Genetic Clustering Algorithm for Automatic Text Summarization |
title_fullStr |
A Genetic Clustering Algorithm for Automatic Text Summarization |
title_full_unstemmed |
A Genetic Clustering Algorithm for Automatic Text Summarization |
title_sort |
A Genetic Clustering Algorithm for Automatic Text Summarization |
dc.creator.fl_str_mv |
Suaréz Benjumea, Sebastian |
dc.contributor.author.spa.fl_str_mv |
Suaréz Benjumea, Sebastian |
dc.contributor.spa.fl_str_mv |
León Guzmán, Elizabeth |
dc.subject.ddc.spa.fl_str_mv |
0 Generalidades / Computer science, information and general works 62 Ingeniería y operaciones afines / Engineering |
topic |
0 Generalidades / Computer science, information and general works 62 Ingeniería y operaciones afines / Engineering Text mining Genetic algorithm Clustering algorithm Automatic text summarization Single document automatic text summarization |
dc.subject.proposal.spa.fl_str_mv |
Text mining Genetic algorithm Clustering algorithm Automatic text summarization Single document automatic text summarization |
description |
Abstract. Automatic text summarization has become a relevant topic due to the information overload. This automatization aims to help humans and machines to deal with the vast amount of text data (structured and un-structured) offered on the web and deep web. In this research a novel approach for automatic extractive text summarization called SENCLUS is presented. Using a genetic clustering algorithm, SENCLUS clusters the sentences as close representation of the text topics using a fitness function based on redundancy and coverage, and applies a scoring function to select the most relevant sentences of each topic to be part of the extractive summary. The approach was validated using the DUC2002 data set and ROUGE summary quality measures. The results shows that the approach is representative against the state of the art methods for extractive automatic text summarization. |
publishDate |
2016 |
dc.date.issued.spa.fl_str_mv |
2016 |
dc.date.accessioned.spa.fl_str_mv |
2019-07-02T12:57:32Z |
dc.date.available.spa.fl_str_mv |
2019-07-02T12:57:32Z |
dc.type.spa.fl_str_mv |
Trabajo de grado - Maestría |
dc.type.driver.spa.fl_str_mv |
info:eu-repo/semantics/masterThesis |
dc.type.version.spa.fl_str_mv |
info:eu-repo/semantics/acceptedVersion |
dc.type.content.spa.fl_str_mv |
Text |
dc.type.redcol.spa.fl_str_mv |
http://purl.org/redcol/resource_type/TM |
status_str |
acceptedVersion |
dc.identifier.uri.none.fl_str_mv |
https://repositorio.unal.edu.co/handle/unal/57548 |
dc.identifier.eprints.spa.fl_str_mv |
http://bdigital.unal.edu.co/53848/ |
url |
https://repositorio.unal.edu.co/handle/unal/57548 http://bdigital.unal.edu.co/53848/ |
dc.language.iso.spa.fl_str_mv |
spa |
language |
spa |
dc.relation.ispartof.spa.fl_str_mv |
Universidad Nacional de Colombia Sede Bogotá Facultad de Ingeniería Departamento de Ingeniería de Sistemas e Industrial Ingeniería de Sistemas Ingeniería de Sistemas |
dc.relation.references.spa.fl_str_mv |
Suaréz Benjumea, Sebastian (2016) A Genetic Clustering Algorithm for Automatic Text Summarization. Maestría thesis, Universidad Nacional de Colombia - Sede Bogotá. |
dc.rights.spa.fl_str_mv |
Derechos reservados - Universidad Nacional de Colombia |
dc.rights.coar.fl_str_mv |
http://purl.org/coar/access_right/c_abf2 |
dc.rights.license.spa.fl_str_mv |
Atribución-NoComercial 4.0 Internacional |
dc.rights.uri.spa.fl_str_mv |
http://creativecommons.org/licenses/by-nc/4.0/ |
dc.rights.accessrights.spa.fl_str_mv |
info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Atribución-NoComercial 4.0 Internacional Derechos reservados - Universidad Nacional de Colombia http://creativecommons.org/licenses/by-nc/4.0/ http://purl.org/coar/access_right/c_abf2 |
eu_rights_str_mv |
openAccess |
dc.format.mimetype.spa.fl_str_mv |
application/pdf |
institution |
Universidad Nacional de Colombia |
bitstream.url.fl_str_mv |
https://repositorio.unal.edu.co/bitstream/unal/57548/1/sebastiansuarezbenjumea.2015.pdf https://repositorio.unal.edu.co/bitstream/unal/57548/2/sebastiansuarezbenjumea.2015.pdf.jpg |
bitstream.checksum.fl_str_mv |
d0cef1051bb586fefe19c09a2b815e55 6d60c2221e48ed08ea4285fe0b0210ae |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Repositorio Institucional Universidad Nacional de Colombia |
repository.mail.fl_str_mv |
repositorio_nal@unal.edu.co |
_version_ |
1814089337588940800 |