Modelado basado en datos para la clasificación semiautomática de correspondencia electrónica: caso de estudio para la Administración Pública Colombiana
E-mail communication is still the most prevalent form of Customer support process in Organizations. Therefore, organizations have had to implementing processes focused on email categorization in accordance with email contents, in order to provide an efficient response to customer requests. A common...
- Autores:
-
Vargas Antolínez, Edwin Alberto
- Tipo de recurso:
- Fecha de publicación:
- 2018
- Institución:
- Escuela Colombiana de Ingeniería Julio Garavito
- Repositorio:
- Repositorio Institucional ECI
- Idioma:
- spa
- OAI Identifier:
- oai:repositorio.escuelaing.edu.co:001/829
- Acceso en línea:
- https://catalogo.escuelaing.edu.co/cgi-bin/koha/opac-detail.pl?biblionumber=21550
https://repositorio.escuelaing.edu.co/handle/001/829
- Palabra clave:
- Clasificación de correspondencia
Minería de datos
Aprendizaje de Máquina
Algoritmos de clasificación
Email classification
Data mining
Machine Learning
Classification algorithms
- Rights
- openAccess
- License
- Derechos Reservados - Escuela Colombiana de Ingeniería Julio Garavito, 2018
id |
ESCUELAIG2_0af23137b79d91e1a0fed0c55531150b |
---|---|
oai_identifier_str |
oai:repositorio.escuelaing.edu.co:001/829 |
network_acronym_str |
ESCUELAIG2 |
network_name_str |
Repositorio Institucional ECI |
repository_id_str |
|
dc.title.spa.fl_str_mv |
Modelado basado en datos para la clasificación semiautomática de correspondencia electrónica: caso de estudio para la Administración Pública Colombiana |
title |
Modelado basado en datos para la clasificación semiautomática de correspondencia electrónica: caso de estudio para la Administración Pública Colombiana |
spellingShingle |
Modelado basado en datos para la clasificación semiautomática de correspondencia electrónica: caso de estudio para la Administración Pública Colombiana Clasificación de correspondencia Minería de datos Aprendizaje de Máquina Algoritmos de clasificación Email classification Data mining Machine Learning Classification algorithms |
title_short |
Modelado basado en datos para la clasificación semiautomática de correspondencia electrónica: caso de estudio para la Administración Pública Colombiana |
title_full |
Modelado basado en datos para la clasificación semiautomática de correspondencia electrónica: caso de estudio para la Administración Pública Colombiana |
title_fullStr |
Modelado basado en datos para la clasificación semiautomática de correspondencia electrónica: caso de estudio para la Administración Pública Colombiana |
title_full_unstemmed |
Modelado basado en datos para la clasificación semiautomática de correspondencia electrónica: caso de estudio para la Administración Pública Colombiana |
title_sort |
Modelado basado en datos para la clasificación semiautomática de correspondencia electrónica: caso de estudio para la Administración Pública Colombiana |
dc.creator.fl_str_mv |
Vargas Antolínez, Edwin Alberto |
dc.contributor.advisor.spa.fl_str_mv |
Conti, Dante (dir) Ospina, Victoria Eugenia (Co-dir) |
dc.contributor.author.spa.fl_str_mv |
Vargas Antolínez, Edwin Alberto |
dc.subject.spa.fl_str_mv |
Clasificación de correspondencia Minería de datos Aprendizaje de Máquina Algoritmos de clasificación |
topic |
Clasificación de correspondencia Minería de datos Aprendizaje de Máquina Algoritmos de clasificación Email classification Data mining Machine Learning Classification algorithms |
dc.subject.keywords.spa.fl_str_mv |
Email classification Data mining Machine Learning Classification algorithms |
description |
E-mail communication is still the most prevalent form of Customer support process in Organizations. Therefore, organizations have had to implementing processes focused on email categorization in accordance with email contents, in order to provide an efficient response to customer requests. A common text mining approach involves a representation of text based on keywords later combined with machine learning. This project presents a methodological approach that evaluates classification algorithms: Supoport Vector Machine and Gradient Boodting Trees on a corpus builded from emails database of the Administrative Department of Public Function in Colombia. |
publishDate |
2018 |
dc.date.accessioned.spa.fl_str_mv |
2018-08-29T21:50:52Z |
dc.date.available.spa.fl_str_mv |
2018-08-29T21:50:52Z |
dc.date.issued.spa.fl_str_mv |
2018 |
dc.date.accessioned.none.fl_str_mv |
2021-10-01T16:08:43Z |
dc.date.available.none.fl_str_mv |
2021-10-01T16:08:43Z |
dc.type.spa.fl_str_mv |
Trabajo de grado - Maestría |
dc.type.coarversion.fl_str_mv |
http://purl.org/coar/version/c_970fb48d4fbd8a85 |
dc.type.version.spa.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.content.spa.fl_str_mv |
Text |
dc.type.driver.spa.fl_str_mv |
info:eu-repo/semantics/masterThesis |
dc.type.redcol.spa.fl_str_mv |
http://purl.org/redcol/resource_type/TM |
status_str |
publishedVersion |
dc.identifier.uri.spa.fl_str_mv |
https://catalogo.escuelaing.edu.co/cgi-bin/koha/opac-detail.pl?biblionumber=21550 |
dc.identifier.uri.none.fl_str_mv |
https://repositorio.escuelaing.edu.co/handle/001/829 |
url |
https://catalogo.escuelaing.edu.co/cgi-bin/koha/opac-detail.pl?biblionumber=21550 https://repositorio.escuelaing.edu.co/handle/001/829 |
dc.language.iso.spa.fl_str_mv |
spa |
language |
spa |
dc.rights.spa.fl_str_mv |
Derechos Reservados - Escuela Colombiana de Ingeniería Julio Garavito, 2018 |
dc.rights.coar.fl_str_mv |
http://purl.org/coar/access_right/c_abf2 |
dc.rights.uri.spa.fl_str_mv |
https://creativecommons.org/licenses/by-nc/4.0/ |
dc.rights.accessrights.spa.fl_str_mv |
info:eu-repo/semantics/openAccess |
dc.rights.creativecommons.spa.fl_str_mv |
Atribución-NoComercial 4.0 Internacional (CC BY-NC 4.0) |
rights_invalid_str_mv |
Derechos Reservados - Escuela Colombiana de Ingeniería Julio Garavito, 2018 https://creativecommons.org/licenses/by-nc/4.0/ Atribución-NoComercial 4.0 Internacional (CC BY-NC 4.0) http://purl.org/coar/access_right/c_abf2 |
eu_rights_str_mv |
openAccess |
dc.format.mimetype.spa.fl_str_mv |
application/pdf |
dc.publisher.spa.fl_str_mv |
Escuela Colombiana de Ingeniería Julio Garavito |
dc.publisher.program.spa.fl_str_mv |
Maestría en Gestión de Información |
institution |
Escuela Colombiana de Ingeniería Julio Garavito |
bitstream.url.fl_str_mv |
https://repositorio.escuelaing.edu.co/bitstream/001/829/1/Vargas%20Antol%c3%adnez%2c%20Edwin%20Alberto%20-%202018%20.pdf https://repositorio.escuelaing.edu.co/bitstream/001/829/2/Autorizacio%cc%81n.pdf https://repositorio.escuelaing.edu.co/bitstream/001/829/3/license.txt https://repositorio.escuelaing.edu.co/bitstream/001/829/8/Vargas%20Antol%c3%adnez%2c%20Edwin%20Alberto%20-%202018%20.pdf.txt https://repositorio.escuelaing.edu.co/bitstream/001/829/10/Autorizacio%cc%81n.pdf.txt https://repositorio.escuelaing.edu.co/bitstream/001/829/9/Vargas%20Antol%c3%adnez%2c%20Edwin%20Alberto%20-%202018%20.pdf.jpg https://repositorio.escuelaing.edu.co/bitstream/001/829/11/Autorizacio%cc%81n.pdf.jpg |
bitstream.checksum.fl_str_mv |
9b917ce9ddf89ac233fdf525a8689c88 563225cfa3e4bf409a834a4dc4d74b1e 5a7ca94c2e5326ee169f979d71d0f06e 814c4d820debb21520bdffed95196149 e704fd703b831c2d450c22bcb854e21c ddf7446b9560bb55d5ab1b59a2f31d72 8c4d56925a2acff9f6f44be03a2ff717 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositorio Escuela Colombiana de Ingeniería Julio Garavito |
repository.mail.fl_str_mv |
repositorio.eci@escuelaing.edu.co |
_version_ |
1814355599396175872 |
spelling |
Conti, Dante (dir)3ba15ed6928e68b494272c5c92244713300Ospina, Victoria Eugenia (Co-dir)42a13cb72adeaaaee43063cc94451553300Vargas Antolínez, Edwin Albertodd93d38ae958bca838fca43bba35cc7a6002018-08-29T21:50:52Z2021-10-01T16:08:43Z2018-08-29T21:50:52Z2021-10-01T16:08:43Z2018https://catalogo.escuelaing.edu.co/cgi-bin/koha/opac-detail.pl?biblionumber=21550https://repositorio.escuelaing.edu.co/handle/001/829E-mail communication is still the most prevalent form of Customer support process in Organizations. Therefore, organizations have had to implementing processes focused on email categorization in accordance with email contents, in order to provide an efficient response to customer requests. A common text mining approach involves a representation of text based on keywords later combined with machine learning. This project presents a methodological approach that evaluates classification algorithms: Supoport Vector Machine and Gradient Boodting Trees on a corpus builded from emails database of the Administrative Department of Public Function in Colombia.El uso de correo electrónico a nivel de las organizaciones, como canal de comunicación en procesos de servicio y atención al cliente, ha crecido en los últimos tiempos. Por tanto, las organizaciones han debido implementar procesos focalizados en organizar dichos correos de acuerdo con la temática esencial transmitida en ellos, para así dar una respuesta eficiente ante las solicitudes de los clientes. Una manera de abordar el problema es a través de la categorización de la correspondencia electrónica mediante la extracción del contenido textual en corpus de palabras determinantes (Minería de Texto) que se usan para una posterior clasificación de los correos con técnicas de aprendizaje automático de máquinas (Machine Learning). Este proyecto presenta un enfoque metodológico que evalúa diversos algoritmos de clasificación con técnicas de muestreo aleatorio simple sobre una población de documentos (correos) del registro de correspondencia del Departamento Administrativo de la Función Pública en Colombia, como caso de estudio. La investigación se detalla en un sistema paso a paso, desde el preprocesamiento de la información, reducción de la dimensionalidad, selección de diversas muestras hasta la aplicación de algoritmos de clasificación. El modelado incluye un benchmarking entre diversos algoritmos: clasificadores de tipo Naive Bayesianos, máquinas de soporte vectorial (SVM) y Boosting. Se propone, además, una arquitectura funcional semiautomática que puede escalarse en futuro en un sistema productivo de gran manejo de datos en tiempo real (streaming) basada en R, Spark y MapReduce. El modelo se pone a prueba logrando valores de “accuracy” superiores al 90% que soportan una buena Línea Base para soluciones en producción para el enfoque empleado en esta investigación.MaestríaMagíster en Gestión de Informaciónapplication/pdfspaEscuela Colombiana de Ingeniería Julio GaravitoMaestría en Gestión de InformaciónDerechos Reservados - Escuela Colombiana de Ingeniería Julio Garavito, 2018https://creativecommons.org/licenses/by-nc/4.0/info:eu-repo/semantics/openAccessAtribución-NoComercial 4.0 Internacional (CC BY-NC 4.0)http://purl.org/coar/access_right/c_abf2Clasificación de correspondenciaMinería de datosAprendizaje de MáquinaAlgoritmos de clasificaciónEmail classificationData miningMachine LearningClassification algorithmsModelado basado en datos para la clasificación semiautomática de correspondencia electrónica: caso de estudio para la Administración Pública ColombianaTrabajo de grado - Maestríainfo:eu-repo/semantics/publishedVersionTextinfo:eu-repo/semantics/masterThesishttp://purl.org/redcol/resource_type/TMhttp://purl.org/coar/version/c_970fb48d4fbd8a85ORIGINALVargas Antolínez, Edwin Alberto - 2018 .pdfapplication/pdf2827878https://repositorio.escuelaing.edu.co/bitstream/001/829/1/Vargas%20Antol%c3%adnez%2c%20Edwin%20Alberto%20-%202018%20.pdf9b917ce9ddf89ac233fdf525a8689c88MD51open accessAutorización.pdfAutorización de la publicaciónapplication/pdf384782https://repositorio.escuelaing.edu.co/bitstream/001/829/2/Autorizacio%cc%81n.pdf563225cfa3e4bf409a834a4dc4d74b1eMD52metadata only accessLICENSElicense.txttext/plain1881https://repositorio.escuelaing.edu.co/bitstream/001/829/3/license.txt5a7ca94c2e5326ee169f979d71d0f06eMD53open accessTEXTVargas Antolínez, Edwin Alberto - 2018 .pdf.txtVargas Antolínez, Edwin Alberto - 2018 .pdf.txtExtracted texttext/plain145956https://repositorio.escuelaing.edu.co/bitstream/001/829/8/Vargas%20Antol%c3%adnez%2c%20Edwin%20Alberto%20-%202018%20.pdf.txt814c4d820debb21520bdffed95196149MD58open accessAutorización.pdf.txtAutorización.pdf.txtExtracted texttext/plain3687https://repositorio.escuelaing.edu.co/bitstream/001/829/10/Autorizacio%cc%81n.pdf.txte704fd703b831c2d450c22bcb854e21cMD510metadata only accessTHUMBNAILVargas Antolínez, Edwin Alberto - 2018 .pdf.jpgVargas Antolínez, Edwin Alberto - 2018 .pdf.jpgGenerated Thumbnailimage/jpeg5568https://repositorio.escuelaing.edu.co/bitstream/001/829/9/Vargas%20Antol%c3%adnez%2c%20Edwin%20Alberto%20-%202018%20.pdf.jpgddf7446b9560bb55d5ab1b59a2f31d72MD59open accessAutorización.pdf.jpgAutorización.pdf.jpgGenerated Thumbnailimage/jpeg13239https://repositorio.escuelaing.edu.co/bitstream/001/829/11/Autorizacio%cc%81n.pdf.jpg8c4d56925a2acff9f6f44be03a2ff717MD511metadata only access001/829oai:repositorio.escuelaing.edu.co:001/8292021-10-01 16:32:49.44open accessRepositorio Escuela Colombiana de Ingeniería Julio Garavitorepositorio.eci@escuelaing.edu.coU0kgVVNURUQgSEFDRSBQQVJURSBERUwgR1JVUE8gREUgUEFSRVMgRVZBTFVBRE9SRVMgREUgTEEgQ09MRUNDScOTTiAiUEVFUiBSRVZJRVciLCBPTUlUQSBFU1RBIExJQ0VOQ0lBLgoKQXV0b3Jpem8gYSBsYSBFc2N1ZWxhIENvbG9tYmlhbmEgZGUgSW5nZW5pZXLDrWEgSnVsaW8gR2FyYXZpdG8gcGFyYSBwdWJsaWNhciBlbCB0cmFiYWpvIGRlIGdyYWRvLCBhcnTDrWN1bG8sIHZpZGVvLCAKY29uZmVyZW5jaWEsIGxpYnJvLCBpbWFnZW4sIGZvdG9ncmFmw61hLCBhdWRpbywgcHJlc2VudGFjacOzbiB1IG90cm8gKGVuICAgIGFkZWxhbnRlIGRvY3VtZW50bykgcXVlIGVuIGxhIGZlY2hhIAplbnRyZWdvIGVuIGZvcm1hdG8gZGlnaXRhbCwgeSBsZSBwZXJtaXRvIGRlIGZvcm1hIGluZGVmaW5pZGEgcXVlIGxvIHB1YmxpcXVlIGVuIGVsIHJlcG9zaXRvcmlvIGluc3RpdHVjaW9uYWwsIAplbiBsb3MgdMOpcm1pbm9zIGVzdGFibGVjaWRvcyBlbiBsYSBMZXkgMjMgZGUgMTk4MiwgbGEgTGV5IDQ0IGRlIDE5OTMsIHkgZGVtw6FzIGxleWVzIHkganVyaXNwcnVkZW5jaWEgdmlnZW50ZQphbCByZXNwZWN0bywgcGFyYSBmaW5lcyBlZHVjYXRpdm9zIHkgbm8gbHVjcmF0aXZvcy4gRXN0YSBhdXRvcml6YWNpw7NuIGVzIHbDoWxpZGEgcGFyYSBsYXMgZmFjdWx0YWRlcyB5IGRlcmVjaG9zIGRlIAp1c28gc29icmUgbGEgb2JyYSBlbiBmb3JtYXRvIGRpZ2l0YWwsIGVsZWN0csOzbmljbywgdmlydHVhbDsgeSBwYXJhIHVzb3MgZW4gcmVkZXMsIGludGVybmV0LCBleHRyYW5ldCwgeSBjdWFscXVpZXIgCmZvcm1hdG8gbyBtZWRpbyBjb25vY2lkbyBvIHBvciBjb25vY2VyLgpFbiBtaSBjYWxpZGFkIGRlIGF1dG9yLCBleHByZXNvIHF1ZSBlbCBkb2N1bWVudG8gb2JqZXRvIGRlIGxhIHByZXNlbnRlIGF1dG9yaXphY2nDs24gZXMgb3JpZ2luYWwgeSBsbyBlbGFib3LDqSBzaW4gCnF1ZWJyYW50YXIgbmkgc3VwbGFudGFyIGxvcyBkZXJlY2hvcyBkZSBhdXRvciBkZSB0ZXJjZXJvcy4gUG9yIGxvIHRhbnRvLCBlcyBkZSBtaSBleGNsdXNpdmEgYXV0b3LDrWEgeSwgZW4gY29uc2VjdWVuY2lhLCAKdGVuZ28gbGEgdGl0dWxhcmlkYWQgc29icmUgw6lsLiBFbiBjYXNvIGRlIHF1ZWphIG8gYWNjacOzbiBwb3IgcGFydGUgZGUgdW4gdGVyY2VybyByZWZlcmVudGUgYSBsb3MgZGVyZWNob3MgZGUgYXV0b3Igc29icmUgCmVsIGRvY3VtZW50byBlbiBjdWVzdGnDs24sIGFzdW1pcsOpIGxhIHJlc3BvbnNhYmlsaWRhZCB0b3RhbCB5IHNhbGRyw6kgZW4gZGVmZW5zYSBkZSBsb3MgZGVyZWNob3MgYXF1w60gYXV0b3JpemFkb3MuIEVzdG8gCnNpZ25pZmljYSBxdWUsIHBhcmEgdG9kb3MgbG9zIGVmZWN0b3MsIGxhIEVzY3VlbGEgYWN0w7phIGNvbW8gdW4gdGVyY2VybyBkZSBidWVuYSBmZS4KVG9kYSBwZXJzb25hIHF1ZSBjb25zdWx0ZSBlbCBSZXBvc2l0b3JpbyBJbnN0aXR1Y2lvbmFsIGRlIGxhIEVzY3VlbGEsIGVsIENhdMOhbG9nbyBlbiBsw61uZWEgdSBvdHJvIG1lZGlvIGVsZWN0csOzbmljbywgCnBvZHLDoSBjb3BpYXIgYXBhcnRlcyBkZWwgdGV4dG8sIGNvbiBlbCBjb21wcm9taXNvIGRlIGNpdGFyIHNpZW1wcmUgbGEgZnVlbnRlLCBsYSBjdWFsIGluY2x1eWUgZWwgdMOtdHVsbyBkZWwgdHJhYmFqbyB5IGVsIAphdXRvci5Fc3RhIGF1dG9yaXphY2nDs24gbm8gaW1wbGljYSByZW51bmNpYSBhIGxhIGZhY3VsdGFkIHF1ZSB0ZW5nbyBkZSBwdWJsaWNhciB0b3RhbCBvIHBhcmNpYWxtZW50ZSBsYSBvYnJhIGVuIG90cm9zIAptZWRpb3MuRXN0YSBhdXRvcml6YWNpw7NuIGVzdMOhIHJlc3BhbGRhZGEgcG9yIGxhcyBmaXJtYXMgZGVsIChsb3MpIGF1dG9yKGVzKSBkZWwgZG9jdW1lbnRvLiAKU8OtIGF1dG9yaXpvIChhbWJvcykK |