Modelado basado en datos para la clasificación semiautomática de correspondencia electrónica: caso de estudio para la Administración Pública Colombiana

E-mail communication is still the most prevalent form of Customer support process in Organizations. Therefore, organizations have had to implementing processes focused on email categorization in accordance with email contents, in order to provide an efficient response to customer requests. A common...

Full description

Autores:
Vargas Antolínez, Edwin Alberto
Tipo de recurso:
Fecha de publicación:
2018
Institución:
Escuela Colombiana de Ingeniería Julio Garavito
Repositorio:
Repositorio Institucional ECI
Idioma:
spa
OAI Identifier:
oai:repositorio.escuelaing.edu.co:001/829
Acceso en línea:
https://catalogo.escuelaing.edu.co/cgi-bin/koha/opac-detail.pl?biblionumber=21550
https://repositorio.escuelaing.edu.co/handle/001/829
Palabra clave:
Clasificación de correspondencia
Minería de datos
Aprendizaje de Máquina
Algoritmos de clasificación
Email classification
Data mining
Machine Learning
Classification algorithms
Rights
openAccess
License
Derechos Reservados - Escuela Colombiana de Ingeniería Julio Garavito, 2018
id ESCUELAIG2_0af23137b79d91e1a0fed0c55531150b
oai_identifier_str oai:repositorio.escuelaing.edu.co:001/829
network_acronym_str ESCUELAIG2
network_name_str Repositorio Institucional ECI
repository_id_str
dc.title.spa.fl_str_mv Modelado basado en datos para la clasificación semiautomática de correspondencia electrónica: caso de estudio para la Administración Pública Colombiana
title Modelado basado en datos para la clasificación semiautomática de correspondencia electrónica: caso de estudio para la Administración Pública Colombiana
spellingShingle Modelado basado en datos para la clasificación semiautomática de correspondencia electrónica: caso de estudio para la Administración Pública Colombiana
Clasificación de correspondencia
Minería de datos
Aprendizaje de Máquina
Algoritmos de clasificación
Email classification
Data mining
Machine Learning
Classification algorithms
title_short Modelado basado en datos para la clasificación semiautomática de correspondencia electrónica: caso de estudio para la Administración Pública Colombiana
title_full Modelado basado en datos para la clasificación semiautomática de correspondencia electrónica: caso de estudio para la Administración Pública Colombiana
title_fullStr Modelado basado en datos para la clasificación semiautomática de correspondencia electrónica: caso de estudio para la Administración Pública Colombiana
title_full_unstemmed Modelado basado en datos para la clasificación semiautomática de correspondencia electrónica: caso de estudio para la Administración Pública Colombiana
title_sort Modelado basado en datos para la clasificación semiautomática de correspondencia electrónica: caso de estudio para la Administración Pública Colombiana
dc.creator.fl_str_mv Vargas Antolínez, Edwin Alberto
dc.contributor.advisor.spa.fl_str_mv Conti, Dante (dir)
Ospina, Victoria Eugenia (Co-dir)
dc.contributor.author.spa.fl_str_mv Vargas Antolínez, Edwin Alberto
dc.subject.spa.fl_str_mv Clasificación de correspondencia
Minería de datos
Aprendizaje de Máquina
Algoritmos de clasificación
topic Clasificación de correspondencia
Minería de datos
Aprendizaje de Máquina
Algoritmos de clasificación
Email classification
Data mining
Machine Learning
Classification algorithms
dc.subject.keywords.spa.fl_str_mv Email classification
Data mining
Machine Learning
Classification algorithms
description E-mail communication is still the most prevalent form of Customer support process in Organizations. Therefore, organizations have had to implementing processes focused on email categorization in accordance with email contents, in order to provide an efficient response to customer requests. A common text mining approach involves a representation of text based on keywords later combined with machine learning. This project presents a methodological approach that evaluates classification algorithms: Supoport Vector Machine and Gradient Boodting Trees on a corpus builded from emails database of the Administrative Department of Public Function in Colombia.
publishDate 2018
dc.date.accessioned.spa.fl_str_mv 2018-08-29T21:50:52Z
dc.date.available.spa.fl_str_mv 2018-08-29T21:50:52Z
dc.date.issued.spa.fl_str_mv 2018
dc.date.accessioned.none.fl_str_mv 2021-10-01T16:08:43Z
dc.date.available.none.fl_str_mv 2021-10-01T16:08:43Z
dc.type.spa.fl_str_mv Trabajo de grado - Maestría
dc.type.coarversion.fl_str_mv http://purl.org/coar/version/c_970fb48d4fbd8a85
dc.type.version.spa.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.content.spa.fl_str_mv Text
dc.type.driver.spa.fl_str_mv info:eu-repo/semantics/masterThesis
dc.type.redcol.spa.fl_str_mv http://purl.org/redcol/resource_type/TM
status_str publishedVersion
dc.identifier.uri.spa.fl_str_mv https://catalogo.escuelaing.edu.co/cgi-bin/koha/opac-detail.pl?biblionumber=21550
dc.identifier.uri.none.fl_str_mv https://repositorio.escuelaing.edu.co/handle/001/829
url https://catalogo.escuelaing.edu.co/cgi-bin/koha/opac-detail.pl?biblionumber=21550
https://repositorio.escuelaing.edu.co/handle/001/829
dc.language.iso.spa.fl_str_mv spa
language spa
dc.rights.spa.fl_str_mv Derechos Reservados - Escuela Colombiana de Ingeniería Julio Garavito, 2018
dc.rights.coar.fl_str_mv http://purl.org/coar/access_right/c_abf2
dc.rights.uri.spa.fl_str_mv https://creativecommons.org/licenses/by-nc/4.0/
dc.rights.accessrights.spa.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.creativecommons.spa.fl_str_mv Atribución-NoComercial 4.0 Internacional (CC BY-NC 4.0)
rights_invalid_str_mv Derechos Reservados - Escuela Colombiana de Ingeniería Julio Garavito, 2018
https://creativecommons.org/licenses/by-nc/4.0/
Atribución-NoComercial 4.0 Internacional (CC BY-NC 4.0)
http://purl.org/coar/access_right/c_abf2
eu_rights_str_mv openAccess
dc.format.mimetype.spa.fl_str_mv application/pdf
dc.publisher.spa.fl_str_mv Escuela Colombiana de Ingeniería Julio Garavito
dc.publisher.program.spa.fl_str_mv Maestría en Gestión de Información
institution Escuela Colombiana de Ingeniería Julio Garavito
bitstream.url.fl_str_mv https://repositorio.escuelaing.edu.co/bitstream/001/829/1/Vargas%20Antol%c3%adnez%2c%20Edwin%20Alberto%20-%202018%20.pdf
https://repositorio.escuelaing.edu.co/bitstream/001/829/2/Autorizacio%cc%81n.pdf
https://repositorio.escuelaing.edu.co/bitstream/001/829/3/license.txt
https://repositorio.escuelaing.edu.co/bitstream/001/829/8/Vargas%20Antol%c3%adnez%2c%20Edwin%20Alberto%20-%202018%20.pdf.txt
https://repositorio.escuelaing.edu.co/bitstream/001/829/10/Autorizacio%cc%81n.pdf.txt
https://repositorio.escuelaing.edu.co/bitstream/001/829/9/Vargas%20Antol%c3%adnez%2c%20Edwin%20Alberto%20-%202018%20.pdf.jpg
https://repositorio.escuelaing.edu.co/bitstream/001/829/11/Autorizacio%cc%81n.pdf.jpg
bitstream.checksum.fl_str_mv 9b917ce9ddf89ac233fdf525a8689c88
563225cfa3e4bf409a834a4dc4d74b1e
5a7ca94c2e5326ee169f979d71d0f06e
814c4d820debb21520bdffed95196149
e704fd703b831c2d450c22bcb854e21c
ddf7446b9560bb55d5ab1b59a2f31d72
8c4d56925a2acff9f6f44be03a2ff717
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio Escuela Colombiana de Ingeniería Julio Garavito
repository.mail.fl_str_mv repositorio.eci@escuelaing.edu.co
_version_ 1814355599396175872
spelling Conti, Dante (dir)3ba15ed6928e68b494272c5c92244713300Ospina, Victoria Eugenia (Co-dir)42a13cb72adeaaaee43063cc94451553300Vargas Antolínez, Edwin Albertodd93d38ae958bca838fca43bba35cc7a6002018-08-29T21:50:52Z2021-10-01T16:08:43Z2018-08-29T21:50:52Z2021-10-01T16:08:43Z2018https://catalogo.escuelaing.edu.co/cgi-bin/koha/opac-detail.pl?biblionumber=21550https://repositorio.escuelaing.edu.co/handle/001/829E-mail communication is still the most prevalent form of Customer support process in Organizations. Therefore, organizations have had to implementing processes focused on email categorization in accordance with email contents, in order to provide an efficient response to customer requests. A common text mining approach involves a representation of text based on keywords later combined with machine learning. This project presents a methodological approach that evaluates classification algorithms: Supoport Vector Machine and Gradient Boodting Trees on a corpus builded from emails database of the Administrative Department of Public Function in Colombia.El uso de correo electrónico a nivel de las organizaciones, como canal de comunicación en procesos de servicio y atención al cliente, ha crecido en los últimos tiempos. Por tanto, las organizaciones han debido implementar procesos focalizados en organizar dichos correos de acuerdo con la temática esencial transmitida en ellos, para así dar una respuesta eficiente ante las solicitudes de los clientes. Una manera de abordar el problema es a través de la categorización de la correspondencia electrónica mediante la extracción del contenido textual en corpus de palabras determinantes (Minería de Texto) que se usan para una posterior clasificación de los correos con técnicas de aprendizaje automático de máquinas (Machine Learning). Este proyecto presenta un enfoque metodológico que evalúa diversos algoritmos de clasificación con técnicas de muestreo aleatorio simple sobre una población de documentos (correos) del registro de correspondencia del Departamento Administrativo de la Función Pública en Colombia, como caso de estudio. La investigación se detalla en un sistema paso a paso, desde el preprocesamiento de la información, reducción de la dimensionalidad, selección de diversas muestras hasta la aplicación de algoritmos de clasificación. El modelado incluye un benchmarking entre diversos algoritmos: clasificadores de tipo Naive Bayesianos, máquinas de soporte vectorial (SVM) y Boosting. Se propone, además, una arquitectura funcional semiautomática que puede escalarse en futuro en un sistema productivo de gran manejo de datos en tiempo real (streaming) basada en R, Spark y MapReduce. El modelo se pone a prueba logrando valores de “accuracy” superiores al 90% que soportan una buena Línea Base para soluciones en producción para el enfoque empleado en esta investigación.MaestríaMagíster en Gestión de Informaciónapplication/pdfspaEscuela Colombiana de Ingeniería Julio GaravitoMaestría en Gestión de InformaciónDerechos Reservados - Escuela Colombiana de Ingeniería Julio Garavito, 2018https://creativecommons.org/licenses/by-nc/4.0/info:eu-repo/semantics/openAccessAtribución-NoComercial 4.0 Internacional (CC BY-NC 4.0)http://purl.org/coar/access_right/c_abf2Clasificación de correspondenciaMinería de datosAprendizaje de MáquinaAlgoritmos de clasificaciónEmail classificationData miningMachine LearningClassification algorithmsModelado basado en datos para la clasificación semiautomática de correspondencia electrónica: caso de estudio para la Administración Pública ColombianaTrabajo de grado - Maestríainfo:eu-repo/semantics/publishedVersionTextinfo:eu-repo/semantics/masterThesishttp://purl.org/redcol/resource_type/TMhttp://purl.org/coar/version/c_970fb48d4fbd8a85ORIGINALVargas Antolínez, Edwin Alberto - 2018 .pdfapplication/pdf2827878https://repositorio.escuelaing.edu.co/bitstream/001/829/1/Vargas%20Antol%c3%adnez%2c%20Edwin%20Alberto%20-%202018%20.pdf9b917ce9ddf89ac233fdf525a8689c88MD51open accessAutorización.pdfAutorización de la publicaciónapplication/pdf384782https://repositorio.escuelaing.edu.co/bitstream/001/829/2/Autorizacio%cc%81n.pdf563225cfa3e4bf409a834a4dc4d74b1eMD52metadata only accessLICENSElicense.txttext/plain1881https://repositorio.escuelaing.edu.co/bitstream/001/829/3/license.txt5a7ca94c2e5326ee169f979d71d0f06eMD53open accessTEXTVargas Antolínez, Edwin Alberto - 2018 .pdf.txtVargas Antolínez, Edwin Alberto - 2018 .pdf.txtExtracted texttext/plain145956https://repositorio.escuelaing.edu.co/bitstream/001/829/8/Vargas%20Antol%c3%adnez%2c%20Edwin%20Alberto%20-%202018%20.pdf.txt814c4d820debb21520bdffed95196149MD58open accessAutorización.pdf.txtAutorización.pdf.txtExtracted texttext/plain3687https://repositorio.escuelaing.edu.co/bitstream/001/829/10/Autorizacio%cc%81n.pdf.txte704fd703b831c2d450c22bcb854e21cMD510metadata only accessTHUMBNAILVargas Antolínez, Edwin Alberto - 2018 .pdf.jpgVargas Antolínez, Edwin Alberto - 2018 .pdf.jpgGenerated Thumbnailimage/jpeg5568https://repositorio.escuelaing.edu.co/bitstream/001/829/9/Vargas%20Antol%c3%adnez%2c%20Edwin%20Alberto%20-%202018%20.pdf.jpgddf7446b9560bb55d5ab1b59a2f31d72MD59open accessAutorización.pdf.jpgAutorización.pdf.jpgGenerated Thumbnailimage/jpeg13239https://repositorio.escuelaing.edu.co/bitstream/001/829/11/Autorizacio%cc%81n.pdf.jpg8c4d56925a2acff9f6f44be03a2ff717MD511metadata only access001/829oai:repositorio.escuelaing.edu.co:001/8292021-10-01 16:32:49.44open accessRepositorio Escuela Colombiana de Ingeniería Julio Garavitorepositorio.eci@escuelaing.edu.coU0kgVVNURUQgSEFDRSBQQVJURSBERUwgR1JVUE8gREUgUEFSRVMgRVZBTFVBRE9SRVMgREUgTEEgQ09MRUNDScOTTiAiUEVFUiBSRVZJRVciLCBPTUlUQSBFU1RBIExJQ0VOQ0lBLgoKQXV0b3Jpem8gYSBsYSBFc2N1ZWxhIENvbG9tYmlhbmEgZGUgSW5nZW5pZXLDrWEgSnVsaW8gR2FyYXZpdG8gcGFyYSBwdWJsaWNhciBlbCB0cmFiYWpvIGRlIGdyYWRvLCBhcnTDrWN1bG8sIHZpZGVvLCAKY29uZmVyZW5jaWEsIGxpYnJvLCBpbWFnZW4sIGZvdG9ncmFmw61hLCBhdWRpbywgcHJlc2VudGFjacOzbiB1IG90cm8gKGVuICAgIGFkZWxhbnRlIGRvY3VtZW50bykgcXVlIGVuIGxhIGZlY2hhIAplbnRyZWdvIGVuIGZvcm1hdG8gZGlnaXRhbCwgeSBsZSBwZXJtaXRvIGRlIGZvcm1hIGluZGVmaW5pZGEgcXVlIGxvIHB1YmxpcXVlIGVuIGVsIHJlcG9zaXRvcmlvIGluc3RpdHVjaW9uYWwsIAplbiBsb3MgdMOpcm1pbm9zIGVzdGFibGVjaWRvcyBlbiBsYSBMZXkgMjMgZGUgMTk4MiwgbGEgTGV5IDQ0IGRlIDE5OTMsIHkgZGVtw6FzIGxleWVzIHkganVyaXNwcnVkZW5jaWEgdmlnZW50ZQphbCByZXNwZWN0bywgcGFyYSBmaW5lcyBlZHVjYXRpdm9zIHkgbm8gbHVjcmF0aXZvcy4gRXN0YSBhdXRvcml6YWNpw7NuIGVzIHbDoWxpZGEgcGFyYSBsYXMgZmFjdWx0YWRlcyB5IGRlcmVjaG9zIGRlIAp1c28gc29icmUgbGEgb2JyYSBlbiBmb3JtYXRvIGRpZ2l0YWwsIGVsZWN0csOzbmljbywgdmlydHVhbDsgeSBwYXJhIHVzb3MgZW4gcmVkZXMsIGludGVybmV0LCBleHRyYW5ldCwgeSBjdWFscXVpZXIgCmZvcm1hdG8gbyBtZWRpbyBjb25vY2lkbyBvIHBvciBjb25vY2VyLgpFbiBtaSBjYWxpZGFkIGRlIGF1dG9yLCBleHByZXNvIHF1ZSBlbCBkb2N1bWVudG8gb2JqZXRvIGRlIGxhIHByZXNlbnRlIGF1dG9yaXphY2nDs24gZXMgb3JpZ2luYWwgeSBsbyBlbGFib3LDqSBzaW4gCnF1ZWJyYW50YXIgbmkgc3VwbGFudGFyIGxvcyBkZXJlY2hvcyBkZSBhdXRvciBkZSB0ZXJjZXJvcy4gUG9yIGxvIHRhbnRvLCBlcyBkZSBtaSBleGNsdXNpdmEgYXV0b3LDrWEgeSwgZW4gY29uc2VjdWVuY2lhLCAKdGVuZ28gbGEgdGl0dWxhcmlkYWQgc29icmUgw6lsLiBFbiBjYXNvIGRlIHF1ZWphIG8gYWNjacOzbiBwb3IgcGFydGUgZGUgdW4gdGVyY2VybyByZWZlcmVudGUgYSBsb3MgZGVyZWNob3MgZGUgYXV0b3Igc29icmUgCmVsIGRvY3VtZW50byBlbiBjdWVzdGnDs24sIGFzdW1pcsOpIGxhIHJlc3BvbnNhYmlsaWRhZCB0b3RhbCB5IHNhbGRyw6kgZW4gZGVmZW5zYSBkZSBsb3MgZGVyZWNob3MgYXF1w60gYXV0b3JpemFkb3MuIEVzdG8gCnNpZ25pZmljYSBxdWUsIHBhcmEgdG9kb3MgbG9zIGVmZWN0b3MsIGxhIEVzY3VlbGEgYWN0w7phIGNvbW8gdW4gdGVyY2VybyBkZSBidWVuYSBmZS4KVG9kYSBwZXJzb25hIHF1ZSBjb25zdWx0ZSBlbCBSZXBvc2l0b3JpbyBJbnN0aXR1Y2lvbmFsIGRlIGxhIEVzY3VlbGEsIGVsIENhdMOhbG9nbyBlbiBsw61uZWEgdSBvdHJvIG1lZGlvIGVsZWN0csOzbmljbywgCnBvZHLDoSBjb3BpYXIgYXBhcnRlcyBkZWwgdGV4dG8sIGNvbiBlbCBjb21wcm9taXNvIGRlIGNpdGFyIHNpZW1wcmUgbGEgZnVlbnRlLCBsYSBjdWFsIGluY2x1eWUgZWwgdMOtdHVsbyBkZWwgdHJhYmFqbyB5IGVsIAphdXRvci5Fc3RhIGF1dG9yaXphY2nDs24gbm8gaW1wbGljYSByZW51bmNpYSBhIGxhIGZhY3VsdGFkIHF1ZSB0ZW5nbyBkZSBwdWJsaWNhciB0b3RhbCBvIHBhcmNpYWxtZW50ZSBsYSBvYnJhIGVuIG90cm9zIAptZWRpb3MuRXN0YSBhdXRvcml6YWNpw7NuIGVzdMOhIHJlc3BhbGRhZGEgcG9yIGxhcyBmaXJtYXMgZGVsIChsb3MpIGF1dG9yKGVzKSBkZWwgZG9jdW1lbnRvLiAKU8OtIGF1dG9yaXpvIChhbWJvcykK