Desarrollo de un sistema de análisis de autoría de textos de literatura de autores hispanohablantes

Tras el notorio auge de aplicaciones de Machine Learning en los últimos años, mayoritariamente del procesamiento de imágenes y audio, son pocas las aplicaciones en el área de la literatura, especialmente el reconocimiento de autoría. Por eso surge la pregunta ¿Qué tan efectivas son las técnicas de M...

Full description

Autores:
Borja Macías, David Elías
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
2019
Institución:
Universidad Autónoma de Bucaramanga - UNAB
Repositorio:
Repositorio UNAB
Idioma:
spa
OAI Identifier:
oai:repository.unab.edu.co:20.500.12749/14040
Acceso en línea:
http://hdl.handle.net/20.500.12749/14040
Palabra clave:
Systems engineer
Technological innovations
Machine learning
Authorship
Literature
Natural language processing
Categorization
Artificial intelligence
Machine theory
Authors
Data processing
Ingeniería de sistemas
Innovaciones tecnológicas
Inteligencia artificial
Teoría de las máquinas
Autores
Procesamiento de datos
Aprendizaje automático
Autoría
Literatura
Lenguaje natural
Procesamiento
Categorización
Rights
openAccess
License
http://creativecommons.org/licenses/by-nc-nd/2.5/co/
id UNAB2_77a90a65681ed1d16f385c8c745cb55e
oai_identifier_str oai:repository.unab.edu.co:20.500.12749/14040
network_acronym_str UNAB2
network_name_str Repositorio UNAB
repository_id_str
dc.title.spa.fl_str_mv Desarrollo de un sistema de análisis de autoría de textos de literatura de autores hispanohablantes
dc.title.translated.spa.fl_str_mv Development of a system for analyzing the authorship of literature texts by Spanish-speaking authors
title Desarrollo de un sistema de análisis de autoría de textos de literatura de autores hispanohablantes
spellingShingle Desarrollo de un sistema de análisis de autoría de textos de literatura de autores hispanohablantes
Systems engineer
Technological innovations
Machine learning
Authorship
Literature
Natural language processing
Categorization
Artificial intelligence
Machine theory
Authors
Data processing
Ingeniería de sistemas
Innovaciones tecnológicas
Inteligencia artificial
Teoría de las máquinas
Autores
Procesamiento de datos
Aprendizaje automático
Autoría
Literatura
Lenguaje natural
Procesamiento
Categorización
title_short Desarrollo de un sistema de análisis de autoría de textos de literatura de autores hispanohablantes
title_full Desarrollo de un sistema de análisis de autoría de textos de literatura de autores hispanohablantes
title_fullStr Desarrollo de un sistema de análisis de autoría de textos de literatura de autores hispanohablantes
title_full_unstemmed Desarrollo de un sistema de análisis de autoría de textos de literatura de autores hispanohablantes
title_sort Desarrollo de un sistema de análisis de autoría de textos de literatura de autores hispanohablantes
dc.creator.fl_str_mv Borja Macías, David Elías
dc.contributor.advisor.none.fl_str_mv Martínez Quezada, Daniel Orlando
Ortiz Beltrán, Ariel Orlando
dc.contributor.author.none.fl_str_mv Borja Macías, David Elías
dc.contributor.cvlac.spa.fl_str_mv Martínez Quezada, Daniel Orlando [0000041131]
Ortiz Beltrán, Ariel Orlando [0001459925]
dc.contributor.googlescholar.spa.fl_str_mv Ortiz Beltrán, Ariel Orlando [FS1dky4AAAAJ&hl=es&oi=ao]
dc.contributor.orcid.spa.fl_str_mv Martínez Quezada, Daniel Orlando [0000-0002-9910-1770]
Ortiz Beltrán, Ariel Orlando [0000-0003-1522-2362]
dc.contributor.researchgate.spa.fl_str_mv Martínez Quezada, Daniel Orlando [Daniel-Martinez-Quezada]
Ortiz Beltrán, Ariel Orlando [Ariel-Ortiz-Beltran]
dc.subject.keywords.spa.fl_str_mv Systems engineer
Technological innovations
Machine learning
Authorship
Literature
Natural language processing
Categorization
Artificial intelligence
Machine theory
Authors
Data processing
topic Systems engineer
Technological innovations
Machine learning
Authorship
Literature
Natural language processing
Categorization
Artificial intelligence
Machine theory
Authors
Data processing
Ingeniería de sistemas
Innovaciones tecnológicas
Inteligencia artificial
Teoría de las máquinas
Autores
Procesamiento de datos
Aprendizaje automático
Autoría
Literatura
Lenguaje natural
Procesamiento
Categorización
dc.subject.lemb.spa.fl_str_mv Ingeniería de sistemas
Innovaciones tecnológicas
Inteligencia artificial
Teoría de las máquinas
Autores
Procesamiento de datos
dc.subject.proposal.spa.fl_str_mv Aprendizaje automático
Autoría
Literatura
Lenguaje natural
Procesamiento
Categorización
description Tras el notorio auge de aplicaciones de Machine Learning en los últimos años, mayoritariamente del procesamiento de imágenes y audio, son pocas las aplicaciones en el área de la literatura, especialmente el reconocimiento de autoría. Por eso surge la pregunta ¿Qué tan efectivas son las técnicas de Machine Learning para la identificación de patrones de grandes volúmenes de textos literarios en el contexto hispanoamericano? Por ende, el objetivo de este trabajo fue desarrollar un sistema inteligente de reconocimiento de estilos literarios basado en obras de literatura universal en español, para automatizar la creación de textos que repliquen el estilo de los autores. Para llevar acabo la investigación se realizó una revisión del estado del arte en técnicas de Machine Learning para la problemática de clasificación de textos y el procesamiento del lenguaje natural. Posteriormente se recolectaron 86 obras literarias de dominio público de 8 autores, a la cual se le realizó un preprocesamiento para la extracción de características de frecuencia inversa de documento (TF-IDF), que se usan para formar vectores de características. Los modelos de Machine Learning propuestos fueron Naïve Bayes, Support Vector Machine y K-Nearest Neighbors; para la clasificación, y cadenas de Markov para la generación de texto, siendo el modelo de clasificación con mejor resultado Naïves Bayes con un accuracy de 0.6453125, y mejor valor del hiperparámetro keysize para la cadena de Markov de 3. Teniendo esto en cuenta cabe resaltar las limitaciones tenidas en este proyecto debido a los modelos de Machine Learning utilizados junto a la cantidad de características extraídas, y se recomienda implementar nuevos modelos capacitados en el análisis de series de tiempo temporales.
publishDate 2019
dc.date.issued.none.fl_str_mv 2019
dc.date.accessioned.none.fl_str_mv 2021-08-26T19:38:22Z
dc.date.available.none.fl_str_mv 2021-08-26T19:38:22Z
dc.type.driver.none.fl_str_mv info:eu-repo/semantics/bachelorThesis
dc.type.local.spa.fl_str_mv Trabajo de Grado
dc.type.coar.none.fl_str_mv http://purl.org/coar/resource_type/c_7a1f
dc.type.redcol.none.fl_str_mv http://purl.org/redcol/resource_type/TP
format http://purl.org/coar/resource_type/c_7a1f
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/20.500.12749/14040
dc.identifier.instname.spa.fl_str_mv instname:Universidad Autónoma de Bucaramanga - UNAB
dc.identifier.reponame.spa.fl_str_mv reponame:Repositorio Institucional UNAB
dc.identifier.repourl.spa.fl_str_mv repourl:https://repository.unab.edu.co
url http://hdl.handle.net/20.500.12749/14040
identifier_str_mv instname:Universidad Autónoma de Bucaramanga - UNAB
reponame:Repositorio Institucional UNAB
repourl:https://repository.unab.edu.co
dc.language.iso.spa.fl_str_mv spa
language spa
dc.relation.references.spa.fl_str_mv Analytics Software & Solutions. (s. f.-a). Aprendizaje automático: Qué es y por qué es importante. Recuperado 22 de marzo de 2019, de https://www.sas.com/es_co/insights/analytics/machine-learning.html
Analytics Software & Solutions. (s. f.-b). What is Natural Language Processing? Recuperado 29 de marzo de 2019, de https://www.sas.com/en_us/insights/analytics/what-is-natural-languageprocessing-nlp.html
Arcila-Calderón, C., Ortega-Mohedano, F., Jiménez-Amores, J., & Trullenque, S. (2017). Análisis supervisado de sentimientos políticos en español: Clasificación en tiempo real de tweets basada en aprendizaje automático. El profesional de la información (EPI), 26(5), 973-982. https://doi.org/10.3145/epi.2017.sep.18
Argamon, S., Koppel, M., Pennebaker, J. W., & Schler, J. (2009). Automatically profiling the author of an anonymous text. Communications of the ACM, 52(2), 119. https://doi.org/10.1145/1461928.1461959
Bermejo, E., & Martínez, Á. (2017, marzo). Machine Learning Whitepaper. Recuperado de https://www.slideshare.net/raona/machine-learningwhitepaper
Betancourt, G. A. (2005). LAS MÁQUINAS DE SOPORTE VECTORIAL (SVMs). Scientia et technica, 1(27). https://doi.org/10.22517/23447214.6895
Caballero, Y., Bello, R., Arco, L., Cárdenas, B., Márquez, Y., & García, M. M. (2010). LA TEORÍA DE LOS CONJUNTOS APROXIMADOS PARA EL DESCUBRIMIENTO DE CONOCIMIENTO. (162), 261-270
Camacho, por J. A. (2018, octubre 26). Linear Discriminant Analysis. Recuperado 24 de octubre de 2019, de JacobSoft website: https://www.jacobsoft.com.mx/es_mx/linear-discriminant-analysis/
CLiPS. (2010, octubre 13). MBSP for Python | CLiPS. Recuperado 17 de mayo de 2019, de http://www.clips.ua.ac.be/pages/MBSP
Cortes Vasquez, A. (2015). Learning System of Web Navigation Patterns through Hypertext Probabilistic Grammars. 11, 72-78. http://dx.doi.org/10.17981/ingecuc.11.1.2015.07
Dans, E. (2013). Estilometría y anonimato. Recuperado 8 de abril de 2019, de EnriqueDans website: https://www.enriquedans.com/2013/08/estilometria-yanonimato.html
ESAcademic. (s. f.). Derivación (lingüística) [Diccionario]. Recuperado 21 de abril de 2019, de Los diccionarios y las enciclopedias sobre el Académico website: http://www.esacademic.com/dic.nsf/eswiki/343084
Espitia Betancourt, C. A., & Páramo Lozada, J. P. (2018). Aplicación del aprendizaje automático en la clasificación de textos cortos: Un caso de estudio en el conflicto armado colombiano. Recuperado de https://repository.ucatolica.edu.co/handle/10983/22546
estilometria.com. (s. f.). Estilometría. Recuperado 7 de abril de 2019, de ESTILOMETRÍA website: http://www.estilometria.com/
García, L. G. (2018). CLASIFICADOR MEJORADO DE TEXTOS PARA EL CONTEXTO DE MEDIO AMBIENTE USANDO NAIVE BAYES MULTINOMIAL EN MÉXICO. 12.
González, C., Vega, Á., Vega, G., & Luengos, G. (2017). EstilometríaTSO – Estilometría aplicada al teatro del Siglo de Oro. Recuperado 8 de abril de 2019, de http://estilometriatso.com/
Gonzalez, L. (2019). Curvas ROC y Área bajo la curva (AUC) | #34 Curso Machine Learning con Python. Recuperado de https://www.youtube.com/watch? v=AcbbkCL0dlo
González, L. (2019, enero 4). Métodos de Selección de Características. Recuperado 24 de octubre de 2019, de Ligdi González website: http://ligdigonzalez.com/metodos-de-seleccion-de-caracteristicas-machinelearning/
González-Avella, J. C., Tudury, J. M., & Rul-lan, G. (s. f.). Análisis de Series Temporales Usando Redes Neuronales Recurrentes. Recuperado 22 de marzo de 2019, de https://www.apsl.net/blog/2017/06/14/analisis-de-seriestemporales-usando-redes-neuronales-recurrentes/
González-Meneses, Y. N., Pedroza-Méndez, B. E., López-Briones, F., PérezCorona, C., & Ramírez-Cruz, J. F. (2014). Implementación del clasificador naive Bayes para la acentuación automática de palabras ambiguas del español. . . ISSN, 9.
InternetWorldStats. (2018, septiembre 8). Spanish Speaking Internet Users and Population—Statistics 2018. Recuperado 15 de agosto de 2019, de https:// www.internetworldstats.com/stats13.htm
InternetWorldStats. (2019, julio 10). Top Ten Internet Languages in The World— Internet Statistics. Recuperado 15 de agosto de 2019, de https://www.internetworldstats.com/stats7.htm
Jamal, N., Mohd, M., & Noah, S. A. (2012). Poetry Classification Using Support Vector Machines.
Jockers, M. L., & Witten, D. M. (2010). A comparative study of machine learning methods for authorship attribution. Literary and Linguistic Computing, 25(2), 215-223. https://doi.org/10.1093/llc/fqq001
Khan, A., Baharudin, B., Hong Lee, L., & Khan, K. (2010, febrero). A Review of Machine Learning Algorthms for Text-Documents Classification. 1(1). Recuperado de https://s3.amazonaws.com/academia.edu.documents/30773019/jait0101.pdf ? AWSAccessKeyId=AKIAIWOWYYGZ2Y53UL3A&Expires=1551884637&Sig nature=AlZd%2FGICjpWt2735Mt%2B7Zi83adA%3D&response-contentdisposition=inline%3B%20filename %3DJournal_of_Advances_in_Information_Techn.pdf#page=6
Khatiboun, A. F. (2019). Machine learning en ciberseguridad. 50
Ko van der Sloot, & Maarten van Gompel. (s. f.-a). MBT. Recuperado 18 de mayo de 2019, de https://languagemachines.github.io/mbt/
Ko van der Sloot, & Maarten van Gompel. (s. f.-b). TiMBL. Recuperado 17 de mayo de 2019, de https://languagemachines.github.io/timbl/
Ko van der Sloot, & Maarten van Gompel. (s. f.-b). TiMBL. Recuperado 17 de mayo de 2019, de https://languagemachines.github.io/timbl/
Koppel, M., & Schler, J. (s. f.). Exploiting stylistic idiosyncrasies for authorship attribution. Recuperado de https://cs.biu.ac.il/~koppel/papers/ijcaiidiosyncrasy-final.ps
Krepych, S., & Spivak, I. (2018). Algorithm of Automatic Generation of Hotel Descriptions Using Templates Based on Markov Chains. 2018 International Scientific-Practical Conference Problems of Infocommunications. Science and Technology (PIC S T), 257-260. https://doi.org/10.1109/INFOCOMMST.2018.8632149
Kumar, V., & Minz, S. (2014). Poem Classification Using Machine Learning Approach. En B. V. Babu, A. Nagar, K. Deep, M. Pant, J. C. Bansal, K. Ray, & U. Gupta (Eds.), Proceedings of the Second International Conference on Soft Computing for Problem Solving (SocProS 2012), December 28-30, 2012 (pp. 675-682). Springer India
León, R. A., Furlán, L. R., & Prieto, J. T. (2016). La detección de ansiedad y estrés en el lenguaje escrito mediante procesamiento automatizado por computadora. 86-95
Lou, A., Inkpen, D., & Tanasescu, C. (2015). Multilabel Subject-Based Classification of Poetry. The Twenty-Eighth International Flairs Conference. Presentado en The Twenty-Eighth International Flairs Conference. Recuperado de https://www.aaai.org/ocs/index.php/FLAIRS/FLAIRS15/paper/view/10372
Luyckx, K., & Daelemans, W. (2005, noviembre). Shallow Text Analysis and Machine Learning for Authorship Attribution [Part of book or chapter of book]. Recuperado 6 de marzo de 2019, de LOT Occasional Series website: http://dspace.library.uu.nl/handle/1874/296538
Luyckx, K., & Daelemans, W. (2008). Authorship Attribution and Verification with Many Authors and Limited Data. Proceedings of the 22Nd International Conference on Computational Linguistics - Volume 1, 513–520. Recuperado de http://dl.acm.org/citation.cfm?id=1599081.1599146
Minitab, LLC. (s. f.-a). ¿Qué es ANOVA? [Mtbconcept]. Recuperado 24 de octubre de 2019, de https://support.minitab.com/es-mx/minitab/18/help-and-how-to/ modeling-statistics/anova/supporting-topics/basics/what-is-anova/
Minitab, LLC. (s. f.-b). ¿Qué es una prueba de chi-cuadrada? [Mtbconcept]. Recuperado 24 de octubre de 2019, de https://support.minitab.com/es-mx/minitab/18/help-and-how-to/statistics/ tables/supporting-topics/chi-square/what-is-a-chi-square-test/
Mitchell, T. M. (1997). Machine Learning. Recuperado de http://profsite.um.ac.ir/~monsefi/machine-learning/pdf/Machine-LearningTom-Mitchell.pdf
Moreno, A., Armengol, E., Béjar, J., Belanche, L., Cortés, U., Gavaldà, R., … Sànchez, M. (1994). Aprendizaje automático. Recuperado de http://hdl.handle.net/2099.3/36157
Neethu, M. S., & Rajasree, R. (2013). Sentiment analysis in twitter using machine learning techniques. 2013 Fourth International Conference on Computing, Communications and Networking Technologies (ICCCNT), 1-5. https://doi.org/10.1109/ICCCNT.2013.6726818
Pang, B., Lee, L., & Vaithyanathan, S. (2002). Thumbs Up?: Sentiment Classification Using Machine Learning Techniques. Proceedings of the ACL02 Conference on Empirical Methods in Natural Language Processing Volume 10, 79–86. https://doi.org/10.3115/1118693.1118704
Pazzani, M. J., & Billsus, D. (2007). Content-Based Recommendation Systems. En P. Brusilovsky, A. Kobsa, & W. Nejdl (Eds.), The Adaptive Web: Methods and Strategies of Web Personalization (pp. 325-341). https://doi.org/10.1007/978-3-540-72079-9_10
Pelechano, V., & Pastor, A. (2005). Neuroticismo y trastornos de personalidad. Análisis y Modificación de Conducta, 31(139). Recuperado de http://rabida.uhu.es/dspace/bitstream/handle/10272/12605/Neuroticismo.pdf ?sequence=2
Pereira, J. (2016). Leveraging Chatbots to Improve Self-guided Learning Through Conversational Quizzes. Proceedings of the Fourth International Conference on Technological Ecosystems for Enhancing Multiculturality, 911–918. https://doi.org/10.1145/3012430.3012625
Pereira-Toledo, A., López-Cabrera, J. D., & Quintero-Domínguez, L. A. (2017). Estudio experimental para la comparación del desempeño de Naïve Bayes con otros clasificadores bayesianos. Revista Cubana de Ciencias Informáticas, 11(4), 67-84
Pérez-Planells, Ll., Delegido, J., Rivera-Caicedo, J. P., & Verrelst, J. (2015). Análisis de métodos de validación cruzada para la obtención robusta de parámetros biofísicos. Revista de Teledetección, (44), 55. https://doi.org/10.4995/raet.2015.4153
Pérez-Rubido, R. (2013). Una revisión a algoritmos de selección de atributos que tratan la redundancia en datos microarreglos. Revista Cubana de Ciencias Informáticas, 7(4), 16-30.
R, J. E. R., F, H. A. B., & M, S. P. B. (2011). Software para el filtrado de páginas web pornográficas basado en el clasificador KNN - UDWEBPORN. Revista Avances en Sistemas e Informática, 8(1), 43-49
Rauet Garcia, A. (2019). Big Data aplicado al Marketing (Universitat Politècnica de Catalunya). Recuperado de https://upcommons.upc.edu/bitstream/handle/2117/165595/BigDataAplicado alMarketing_Aleix_Rauet.pdf
Rodríguez, Y., Fernández, Y., Bello, R., & Caballero, Y. (2014). Selección de atributos relevantes aplicando algoritmos que combinan conjuntos aproximados y optimización en colonias de hormigas. Revista Cubana de Ciencias Informáticas, 8(1), 79-86
Romero, L. A. (s. f.). Redes Neuronales. Recuperado 22 de marzo de 2019, de http://avellano.fis.usal.es/~lalonso/RNA/index.htm
RosettaCode. (2019, septiembre 4). Markov chain text generator—Rosetta Code. Recuperado 7 de noviembre de 2019, de https://rosettacode.org/wiki/Markov_chain_text_generator#Functional
Rubio Terrés, C. (2000). Introducción a la utilización de los modelos de Markov en el análisis farmacoeconómico. Farmacia Hospitalaria, 24(4), 241-247.
Russo, C., Ramón, H., Alonso, N., Cicerchia, B., Esnaola, L., & Tessore, J. P. (2017). Tratamiento Masivo de Datos Utilizando Técnicas de Machine Learning. 131-134
Salazar-Serrudo, C., & García-Villalba, J. (s. f.). A Web Searching Agent that Uses Intelligent Techniques. 10.
Sarro, L. M. (2009). Compromiso sesgo-varianza. Recuperado de https://canal.uned.es/video/5a6f8828b1111f4c618b45ea
Scikit-Learn. (s. f.). Choosing the right estimator—Scikit-learn 0.21.3 documentation. Recuperado 20 de octubre de 2019, de https://scikitlearn.org/stable/tutorial/machine_learning_map/index.html
Sebastiani, F. (2002). Machine Learning in Automated Text Categorization. ACM Comput. Surv., 34(1), 1–47. https://doi.org/10.1145/505282.505283
Sreeja, P. S., & Mahalakshmi, G. S. (2016). Comparison of Probabilistic Corpus Based Method and Vector Space Model for Emotion Recognition from Poems. Recuperado de http://docsdrive.com/pdfs/medwelljournals/ajit/2016/908-915.pdf
Stańczyk, U., & Krzysztof A., C. (2007). Machine learning approach to authorship attribution of literary texts. 1(4), 8.
tfidf.com. (s. f.). Tf-idf: A Single-Page Tutorial—Information Retrieval and Text Mining. Recuperado 7 de abril de 2019, de http://www.tfidf.com/
Tim Jones, M. (2017, octubre 4). Aprendizaje profundo y Caffe, Deeplearning4j, TensorFlow y DDL. Recuperado 22 de marzo de 2019, de http://www.ibm.com/developerworks/ssa/library/cc-machine-learning-deeplearning-architectures/index.html
Tong, S., & Koller, D. (2001). Support Vector Machine Active Learning with Applications to Text Classification. Journal of Machine Learning Research, 2(Nov), 45-66.
Ugarriza, N. (1999). Neuroticismo, expresiones emocionales y percepción de la violencia en escolares. Revista de la Facultad de Psicología, (2), 79-110.
ULLmedia - Universidad de La Laguna. (2014). Representación de documentos mediante TF-IDF. Recuperado de https://www.youtube.com/watch? v=OkSZZ0F7ToA
Universidad de Sevilla. (s. f.-a). Capítulo 3—Perceptrón multipaca. Recuperado 7 de abril de 2019, de http://bibing.us.es/proyectos/abreproy/12166/fichero/Volumen+1++Memoria+descriptiva+del+proyecto%252F3+-+Perceptron+multicapa.pdf
Universidad de Sevilla. (s. f.-b). Capítulo 4—El perceptrón. Recuperado 7 de abril de 2019, de http://bibing.us.es/proyectos/abreproy/11084/fichero/Memoria+por+cap %C3%ADtulos+%252FCap%C3%ADtulo+4.pdf+
Universidad de Sevilla. (s. f.-c). Coeficiente de correlación lineal de Pearson. Recuperado de https://personal.us.es/vararey/adatos2/correlacion.pdf
Universitat politècnica de Catalunya. (s. f.). Aprendizaje Automático | Facultad de Informática de Barcelona. Recuperado 2 de abril de 2019, de Aprendizaje Automático—Facultad de informática de Barcelona website: https://www.fib.upc.edu/es/estudios/grados/grado-en-ingenieria-informatica/ plan-de-estudios/asignaturas/APA
Viera, A. F. G. (2017). Técnicas de aprendizaje de máquina utilizadas para la minería de texto. Investigación bibliotecológica, 31(71), 103-126. https://doi.org/10.22201/iibi.0187358xp.2017.71.57812
Wilbur, W. J., & Sirotkin, K. (1992). The automatic identification of stop words. Journal of Information Science, 18(1), 45-55. https://doi.org/10.1177/016555159201800106
Witten, L. H., Frank, E., & Hall, M. A. (2011). Data Mining: Practical Machine Learning Tools and Techniques (3.a ed.). USA: Elsevier.
Ye, Q., Zhang, Z., & Law, R. (2009). Sentiment classification of online reviews to travel destinations by supervised machine learning approaches. Expert Systems with Applications, 36(3, Part 2), 6527-6535. https://doi.org/10.1016/ j.eswa.2008.07.035
Zhang, D., & Lee, W. S. (2006). Extracting Key-substring-group Features for Text Classification. Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 474–483. https://doi.org/10.1145/1150402.1150455
dc.rights.uri.*.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/2.5/co/
dc.rights.local.spa.fl_str_mv Abierto (Texto Completo)
dc.rights.accessrights.spa.fl_str_mv info:eu-repo/semantics/openAccess
http://purl.org/coar/access_right/c_abf2
dc.rights.creativecommons.*.fl_str_mv Atribución-NoComercial-SinDerivadas 2.5 Colombia
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-nd/2.5/co/
Abierto (Texto Completo)
http://purl.org/coar/access_right/c_abf2
Atribución-NoComercial-SinDerivadas 2.5 Colombia
eu_rights_str_mv openAccess
dc.format.mimetype.spa.fl_str_mv application/pdf
dc.coverage.spatial.spa.fl_str_mv Colombia
dc.publisher.grantor.spa.fl_str_mv Universidad Autónoma de Bucaramanga UNAB
dc.publisher.faculty.spa.fl_str_mv Facultad Ingeniería
dc.publisher.program.spa.fl_str_mv Pregrado Ingeniería de Sistemas
institution Universidad Autónoma de Bucaramanga - UNAB
bitstream.url.fl_str_mv https://repository.unab.edu.co/bitstream/20.500.12749/14040/1/2019_Tesis_David_Elias_Borja.pdf
https://repository.unab.edu.co/bitstream/20.500.12749/14040/2/2019_Licencia_David_Elias_Borja.pdf
https://repository.unab.edu.co/bitstream/20.500.12749/14040/3/license.txt
https://repository.unab.edu.co/bitstream/20.500.12749/14040/4/2019_Tesis_David_Elias_Borja.pdf.jpg
https://repository.unab.edu.co/bitstream/20.500.12749/14040/5/2019_Licencia_David_Elias_Borja.pdf.jpg
bitstream.checksum.fl_str_mv efd676d67dbc446f99a33e21502717dd
67f277dd108200a2233b07c449761f7d
8a4605be74aa9ea9d79846c1fba20a33
4b3e3a4b44ed7933fc6beb8fac74c96b
66b7cee11f394603c5f7e5e081fca3be
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio Institucional | Universidad Autónoma de Bucaramanga - UNAB
repository.mail.fl_str_mv repositorio@unab.edu.co
_version_ 1808410751541444608
spelling Martínez Quezada, Daniel OrlandoOrtiz Beltrán, Ariel OrlandoBorja Macías, David ElíasMartínez Quezada, Daniel Orlando [0000041131]Ortiz Beltrán, Ariel Orlando [0001459925]Ortiz Beltrán, Ariel Orlando [FS1dky4AAAAJ&hl=es&oi=ao]Martínez Quezada, Daniel Orlando [0000-0002-9910-1770]Ortiz Beltrán, Ariel Orlando [0000-0003-1522-2362]Martínez Quezada, Daniel Orlando [Daniel-Martinez-Quezada]Ortiz Beltrán, Ariel Orlando [Ariel-Ortiz-Beltran]Colombia2021-08-26T19:38:22Z2021-08-26T19:38:22Z2019http://hdl.handle.net/20.500.12749/14040instname:Universidad Autónoma de Bucaramanga - UNABreponame:Repositorio Institucional UNABrepourl:https://repository.unab.edu.coTras el notorio auge de aplicaciones de Machine Learning en los últimos años, mayoritariamente del procesamiento de imágenes y audio, son pocas las aplicaciones en el área de la literatura, especialmente el reconocimiento de autoría. Por eso surge la pregunta ¿Qué tan efectivas son las técnicas de Machine Learning para la identificación de patrones de grandes volúmenes de textos literarios en el contexto hispanoamericano? Por ende, el objetivo de este trabajo fue desarrollar un sistema inteligente de reconocimiento de estilos literarios basado en obras de literatura universal en español, para automatizar la creación de textos que repliquen el estilo de los autores. Para llevar acabo la investigación se realizó una revisión del estado del arte en técnicas de Machine Learning para la problemática de clasificación de textos y el procesamiento del lenguaje natural. Posteriormente se recolectaron 86 obras literarias de dominio público de 8 autores, a la cual se le realizó un preprocesamiento para la extracción de características de frecuencia inversa de documento (TF-IDF), que se usan para formar vectores de características. Los modelos de Machine Learning propuestos fueron Naïve Bayes, Support Vector Machine y K-Nearest Neighbors; para la clasificación, y cadenas de Markov para la generación de texto, siendo el modelo de clasificación con mejor resultado Naïves Bayes con un accuracy de 0.6453125, y mejor valor del hiperparámetro keysize para la cadena de Markov de 3. Teniendo esto en cuenta cabe resaltar las limitaciones tenidas en este proyecto debido a los modelos de Machine Learning utilizados junto a la cantidad de características extraídas, y se recomienda implementar nuevos modelos capacitados en el análisis de series de tiempo temporales.1. INTRODUCCIÓN...................................................................................................7 2. OBJETIVO.............................................................................................................9 2.1 OBJETIVO GENERAL.........................................................................................9 2.2 OBJETIVOS ESPECÍFICOS...............................................................................9 2.3 RESULTADOS...................................................................................................10 2.4 METODOLOGÍA.................................................................................................11 3. MARCO TEÓRICO..............................................................................................13 3.1 ESTADO DEL ARTE..........................................................................................13 3.2 BASE TEÓRICA.................................................................................................28 3.2.1 Aprendizaje Automática en máquinas................................................28 3.2.2 Selección de características..............................................................34 3.2.3 Selección de características..............................................................37 3.2.4 Modelo de clasificación......................................................................41 3.3 BASE CONCEPTUAL........................................................................................46 4. RESULTADOS.....................................................................................................51 4.1 CLASIFICADOR................................................................................................51 4.2 GENERADOR....................................................................................................57 5. CONCLUSIONES................................................................................................59 6. REFERENCIAS...................................................................................................61 7. ANEXOS..............................................................................................................72PregradoAfter the notorious boom in Machine Learning applications in recent years, mostly for image and audio processing, there are few applications in the literature area, especially authorship recognition. That is why the question arises, How effective are Machine Learning techniques for the identification of patterns of large volumes of literary texts in the Hispanic American context? Therefore, the objective of this work was to develop an intelligent system for the recognition of literary styles based on works of universal literature in Spanish, to automate the creation of texts that replicate the style of the authors. To carry out the research, a review of the state of the art in Machine Learning techniques was carried out for the problem of text classification and natural language processing. Later 86 works were collected 8 authors' public domain literature, which was preprocessed for the extraction of document inverse frequency features (TF-IDF), which are used to form feature vectors. The proposed Machine Learning models were Naïve Bayes, Support Vector Machine and K-Nearest Neighbors; for the classification, and Markov chains for the text generation, the classification model with the best result being Naïves Bayes with an accuracy of 0.6453125, and the best value of the keysize hyperparameter for the Markov chain of 3. Taking this into account, it is worth highlighting the limitations had in this project due to the Machine Learning models used together with the amount of extracted characteristics, and it is recommended to implement new models trained in the analysis of temporal time series.application/pdfspahttp://creativecommons.org/licenses/by-nc-nd/2.5/co/Abierto (Texto Completo)info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Atribución-NoComercial-SinDerivadas 2.5 ColombiaDesarrollo de un sistema de análisis de autoría de textos de literatura de autores hispanohablantesDevelopment of a system for analyzing the authorship of literature texts by Spanish-speaking authorsIngeniero de SistemasUniversidad Autónoma de Bucaramanga UNABFacultad IngenieríaPregrado Ingeniería de Sistemasinfo:eu-repo/semantics/bachelorThesisTrabajo de Gradohttp://purl.org/coar/resource_type/c_7a1fhttp://purl.org/redcol/resource_type/TPSystems engineerTechnological innovationsMachine learningAuthorshipLiteratureNatural language processingCategorizationArtificial intelligenceMachine theoryAuthorsData processingIngeniería de sistemasInnovaciones tecnológicasInteligencia artificialTeoría de las máquinasAutoresProcesamiento de datosAprendizaje automáticoAutoríaLiteraturaLenguaje naturalProcesamientoCategorizaciónAnalytics Software & Solutions. (s. f.-a). Aprendizaje automático: Qué es y por qué es importante. Recuperado 22 de marzo de 2019, de https://www.sas.com/es_co/insights/analytics/machine-learning.htmlAnalytics Software & Solutions. (s. f.-b). What is Natural Language Processing? Recuperado 29 de marzo de 2019, de https://www.sas.com/en_us/insights/analytics/what-is-natural-languageprocessing-nlp.htmlArcila-Calderón, C., Ortega-Mohedano, F., Jiménez-Amores, J., & Trullenque, S. (2017). Análisis supervisado de sentimientos políticos en español: Clasificación en tiempo real de tweets basada en aprendizaje automático. El profesional de la información (EPI), 26(5), 973-982. https://doi.org/10.3145/epi.2017.sep.18Argamon, S., Koppel, M., Pennebaker, J. W., & Schler, J. (2009). Automatically profiling the author of an anonymous text. Communications of the ACM, 52(2), 119. https://doi.org/10.1145/1461928.1461959Bermejo, E., & Martínez, Á. (2017, marzo). Machine Learning Whitepaper. Recuperado de https://www.slideshare.net/raona/machine-learningwhitepaperBetancourt, G. A. (2005). LAS MÁQUINAS DE SOPORTE VECTORIAL (SVMs). Scientia et technica, 1(27). https://doi.org/10.22517/23447214.6895Caballero, Y., Bello, R., Arco, L., Cárdenas, B., Márquez, Y., & García, M. M. (2010). LA TEORÍA DE LOS CONJUNTOS APROXIMADOS PARA EL DESCUBRIMIENTO DE CONOCIMIENTO. (162), 261-270Camacho, por J. A. (2018, octubre 26). Linear Discriminant Analysis. Recuperado 24 de octubre de 2019, de JacobSoft website: https://www.jacobsoft.com.mx/es_mx/linear-discriminant-analysis/CLiPS. (2010, octubre 13). MBSP for Python | CLiPS. Recuperado 17 de mayo de 2019, de http://www.clips.ua.ac.be/pages/MBSPCortes Vasquez, A. (2015). Learning System of Web Navigation Patterns through Hypertext Probabilistic Grammars. 11, 72-78. http://dx.doi.org/10.17981/ingecuc.11.1.2015.07Dans, E. (2013). Estilometría y anonimato. Recuperado 8 de abril de 2019, de EnriqueDans website: https://www.enriquedans.com/2013/08/estilometria-yanonimato.htmlESAcademic. (s. f.). Derivación (lingüística) [Diccionario]. Recuperado 21 de abril de 2019, de Los diccionarios y las enciclopedias sobre el Académico website: http://www.esacademic.com/dic.nsf/eswiki/343084Espitia Betancourt, C. A., & Páramo Lozada, J. P. (2018). Aplicación del aprendizaje automático en la clasificación de textos cortos: Un caso de estudio en el conflicto armado colombiano. Recuperado de https://repository.ucatolica.edu.co/handle/10983/22546estilometria.com. (s. f.). Estilometría. Recuperado 7 de abril de 2019, de ESTILOMETRÍA website: http://www.estilometria.com/García, L. G. (2018). CLASIFICADOR MEJORADO DE TEXTOS PARA EL CONTEXTO DE MEDIO AMBIENTE USANDO NAIVE BAYES MULTINOMIAL EN MÉXICO. 12.González, C., Vega, Á., Vega, G., & Luengos, G. (2017). EstilometríaTSO – Estilometría aplicada al teatro del Siglo de Oro. Recuperado 8 de abril de 2019, de http://estilometriatso.com/Gonzalez, L. (2019). Curvas ROC y Área bajo la curva (AUC) | #34 Curso Machine Learning con Python. Recuperado de https://www.youtube.com/watch? v=AcbbkCL0dloGonzález, L. (2019, enero 4). Métodos de Selección de Características. Recuperado 24 de octubre de 2019, de Ligdi González website: http://ligdigonzalez.com/metodos-de-seleccion-de-caracteristicas-machinelearning/González-Avella, J. C., Tudury, J. M., & Rul-lan, G. (s. f.). Análisis de Series Temporales Usando Redes Neuronales Recurrentes. Recuperado 22 de marzo de 2019, de https://www.apsl.net/blog/2017/06/14/analisis-de-seriestemporales-usando-redes-neuronales-recurrentes/González-Meneses, Y. N., Pedroza-Méndez, B. E., López-Briones, F., PérezCorona, C., & Ramírez-Cruz, J. F. (2014). Implementación del clasificador naive Bayes para la acentuación automática de palabras ambiguas del español. . . ISSN, 9.InternetWorldStats. (2018, septiembre 8). Spanish Speaking Internet Users and Population—Statistics 2018. Recuperado 15 de agosto de 2019, de https:// www.internetworldstats.com/stats13.htmInternetWorldStats. (2019, julio 10). Top Ten Internet Languages in The World— Internet Statistics. Recuperado 15 de agosto de 2019, de https://www.internetworldstats.com/stats7.htmJamal, N., Mohd, M., & Noah, S. A. (2012). Poetry Classification Using Support Vector Machines.Jockers, M. L., & Witten, D. M. (2010). A comparative study of machine learning methods for authorship attribution. Literary and Linguistic Computing, 25(2), 215-223. https://doi.org/10.1093/llc/fqq001Khan, A., Baharudin, B., Hong Lee, L., & Khan, K. (2010, febrero). A Review of Machine Learning Algorthms for Text-Documents Classification. 1(1). Recuperado de https://s3.amazonaws.com/academia.edu.documents/30773019/jait0101.pdf ? AWSAccessKeyId=AKIAIWOWYYGZ2Y53UL3A&Expires=1551884637&Sig nature=AlZd%2FGICjpWt2735Mt%2B7Zi83adA%3D&response-contentdisposition=inline%3B%20filename %3DJournal_of_Advances_in_Information_Techn.pdf#page=6Khatiboun, A. F. (2019). Machine learning en ciberseguridad. 50Ko van der Sloot, & Maarten van Gompel. (s. f.-a). MBT. Recuperado 18 de mayo de 2019, de https://languagemachines.github.io/mbt/Ko van der Sloot, & Maarten van Gompel. (s. f.-b). TiMBL. Recuperado 17 de mayo de 2019, de https://languagemachines.github.io/timbl/Ko van der Sloot, & Maarten van Gompel. (s. f.-b). TiMBL. Recuperado 17 de mayo de 2019, de https://languagemachines.github.io/timbl/Koppel, M., & Schler, J. (s. f.). Exploiting stylistic idiosyncrasies for authorship attribution. Recuperado de https://cs.biu.ac.il/~koppel/papers/ijcaiidiosyncrasy-final.psKrepych, S., & Spivak, I. (2018). Algorithm of Automatic Generation of Hotel Descriptions Using Templates Based on Markov Chains. 2018 International Scientific-Practical Conference Problems of Infocommunications. Science and Technology (PIC S T), 257-260. https://doi.org/10.1109/INFOCOMMST.2018.8632149Kumar, V., & Minz, S. (2014). Poem Classification Using Machine Learning Approach. En B. V. Babu, A. Nagar, K. Deep, M. Pant, J. C. Bansal, K. Ray, & U. Gupta (Eds.), Proceedings of the Second International Conference on Soft Computing for Problem Solving (SocProS 2012), December 28-30, 2012 (pp. 675-682). Springer IndiaLeón, R. A., Furlán, L. R., & Prieto, J. T. (2016). La detección de ansiedad y estrés en el lenguaje escrito mediante procesamiento automatizado por computadora. 86-95Lou, A., Inkpen, D., & Tanasescu, C. (2015). Multilabel Subject-Based Classification of Poetry. The Twenty-Eighth International Flairs Conference. Presentado en The Twenty-Eighth International Flairs Conference. Recuperado de https://www.aaai.org/ocs/index.php/FLAIRS/FLAIRS15/paper/view/10372Luyckx, K., & Daelemans, W. (2005, noviembre). Shallow Text Analysis and Machine Learning for Authorship Attribution [Part of book or chapter of book]. Recuperado 6 de marzo de 2019, de LOT Occasional Series website: http://dspace.library.uu.nl/handle/1874/296538Luyckx, K., & Daelemans, W. (2008). Authorship Attribution and Verification with Many Authors and Limited Data. Proceedings of the 22Nd International Conference on Computational Linguistics - Volume 1, 513–520. Recuperado de http://dl.acm.org/citation.cfm?id=1599081.1599146Minitab, LLC. (s. f.-a). ¿Qué es ANOVA? [Mtbconcept]. Recuperado 24 de octubre de 2019, de https://support.minitab.com/es-mx/minitab/18/help-and-how-to/ modeling-statistics/anova/supporting-topics/basics/what-is-anova/Minitab, LLC. (s. f.-b). ¿Qué es una prueba de chi-cuadrada? [Mtbconcept]. Recuperado 24 de octubre de 2019, de https://support.minitab.com/es-mx/minitab/18/help-and-how-to/statistics/ tables/supporting-topics/chi-square/what-is-a-chi-square-test/Mitchell, T. M. (1997). Machine Learning. Recuperado de http://profsite.um.ac.ir/~monsefi/machine-learning/pdf/Machine-LearningTom-Mitchell.pdfMoreno, A., Armengol, E., Béjar, J., Belanche, L., Cortés, U., Gavaldà, R., … Sànchez, M. (1994). Aprendizaje automático. Recuperado de http://hdl.handle.net/2099.3/36157Neethu, M. S., & Rajasree, R. (2013). Sentiment analysis in twitter using machine learning techniques. 2013 Fourth International Conference on Computing, Communications and Networking Technologies (ICCCNT), 1-5. https://doi.org/10.1109/ICCCNT.2013.6726818Pang, B., Lee, L., & Vaithyanathan, S. (2002). Thumbs Up?: Sentiment Classification Using Machine Learning Techniques. Proceedings of the ACL02 Conference on Empirical Methods in Natural Language Processing Volume 10, 79–86. https://doi.org/10.3115/1118693.1118704Pazzani, M. J., & Billsus, D. (2007). Content-Based Recommendation Systems. En P. Brusilovsky, A. Kobsa, & W. Nejdl (Eds.), The Adaptive Web: Methods and Strategies of Web Personalization (pp. 325-341). https://doi.org/10.1007/978-3-540-72079-9_10Pelechano, V., & Pastor, A. (2005). Neuroticismo y trastornos de personalidad. Análisis y Modificación de Conducta, 31(139). Recuperado de http://rabida.uhu.es/dspace/bitstream/handle/10272/12605/Neuroticismo.pdf ?sequence=2Pereira, J. (2016). Leveraging Chatbots to Improve Self-guided Learning Through Conversational Quizzes. Proceedings of the Fourth International Conference on Technological Ecosystems for Enhancing Multiculturality, 911–918. https://doi.org/10.1145/3012430.3012625Pereira-Toledo, A., López-Cabrera, J. D., & Quintero-Domínguez, L. A. (2017). Estudio experimental para la comparación del desempeño de Naïve Bayes con otros clasificadores bayesianos. Revista Cubana de Ciencias Informáticas, 11(4), 67-84Pérez-Planells, Ll., Delegido, J., Rivera-Caicedo, J. P., & Verrelst, J. (2015). Análisis de métodos de validación cruzada para la obtención robusta de parámetros biofísicos. Revista de Teledetección, (44), 55. https://doi.org/10.4995/raet.2015.4153Pérez-Rubido, R. (2013). Una revisión a algoritmos de selección de atributos que tratan la redundancia en datos microarreglos. Revista Cubana de Ciencias Informáticas, 7(4), 16-30.R, J. E. R., F, H. A. B., & M, S. P. B. (2011). Software para el filtrado de páginas web pornográficas basado en el clasificador KNN - UDWEBPORN. Revista Avances en Sistemas e Informática, 8(1), 43-49Rauet Garcia, A. (2019). Big Data aplicado al Marketing (Universitat Politècnica de Catalunya). Recuperado de https://upcommons.upc.edu/bitstream/handle/2117/165595/BigDataAplicado alMarketing_Aleix_Rauet.pdfRodríguez, Y., Fernández, Y., Bello, R., & Caballero, Y. (2014). Selección de atributos relevantes aplicando algoritmos que combinan conjuntos aproximados y optimización en colonias de hormigas. Revista Cubana de Ciencias Informáticas, 8(1), 79-86Romero, L. A. (s. f.). Redes Neuronales. Recuperado 22 de marzo de 2019, de http://avellano.fis.usal.es/~lalonso/RNA/index.htmRosettaCode. (2019, septiembre 4). Markov chain text generator—Rosetta Code. Recuperado 7 de noviembre de 2019, de https://rosettacode.org/wiki/Markov_chain_text_generator#FunctionalRubio Terrés, C. (2000). Introducción a la utilización de los modelos de Markov en el análisis farmacoeconómico. Farmacia Hospitalaria, 24(4), 241-247.Russo, C., Ramón, H., Alonso, N., Cicerchia, B., Esnaola, L., & Tessore, J. P. (2017). Tratamiento Masivo de Datos Utilizando Técnicas de Machine Learning. 131-134Salazar-Serrudo, C., & García-Villalba, J. (s. f.). A Web Searching Agent that Uses Intelligent Techniques. 10.Sarro, L. M. (2009). Compromiso sesgo-varianza. Recuperado de https://canal.uned.es/video/5a6f8828b1111f4c618b45eaScikit-Learn. (s. f.). Choosing the right estimator—Scikit-learn 0.21.3 documentation. Recuperado 20 de octubre de 2019, de https://scikitlearn.org/stable/tutorial/machine_learning_map/index.htmlSebastiani, F. (2002). Machine Learning in Automated Text Categorization. ACM Comput. Surv., 34(1), 1–47. https://doi.org/10.1145/505282.505283Sreeja, P. S., & Mahalakshmi, G. S. (2016). Comparison of Probabilistic Corpus Based Method and Vector Space Model for Emotion Recognition from Poems. Recuperado de http://docsdrive.com/pdfs/medwelljournals/ajit/2016/908-915.pdfStańczyk, U., & Krzysztof A., C. (2007). Machine learning approach to authorship attribution of literary texts. 1(4), 8.tfidf.com. (s. f.). Tf-idf: A Single-Page Tutorial—Information Retrieval and Text Mining. Recuperado 7 de abril de 2019, de http://www.tfidf.com/Tim Jones, M. (2017, octubre 4). Aprendizaje profundo y Caffe, Deeplearning4j, TensorFlow y DDL. Recuperado 22 de marzo de 2019, de http://www.ibm.com/developerworks/ssa/library/cc-machine-learning-deeplearning-architectures/index.htmlTong, S., & Koller, D. (2001). Support Vector Machine Active Learning with Applications to Text Classification. Journal of Machine Learning Research, 2(Nov), 45-66.Ugarriza, N. (1999). Neuroticismo, expresiones emocionales y percepción de la violencia en escolares. Revista de la Facultad de Psicología, (2), 79-110.ULLmedia - Universidad de La Laguna. (2014). Representación de documentos mediante TF-IDF. Recuperado de https://www.youtube.com/watch? v=OkSZZ0F7ToAUniversidad de Sevilla. (s. f.-a). Capítulo 3—Perceptrón multipaca. Recuperado 7 de abril de 2019, de http://bibing.us.es/proyectos/abreproy/12166/fichero/Volumen+1++Memoria+descriptiva+del+proyecto%252F3+-+Perceptron+multicapa.pdfUniversidad de Sevilla. (s. f.-b). Capítulo 4—El perceptrón. Recuperado 7 de abril de 2019, de http://bibing.us.es/proyectos/abreproy/11084/fichero/Memoria+por+cap %C3%ADtulos+%252FCap%C3%ADtulo+4.pdf+Universidad de Sevilla. (s. f.-c). Coeficiente de correlación lineal de Pearson. Recuperado de https://personal.us.es/vararey/adatos2/correlacion.pdfUniversitat politècnica de Catalunya. (s. f.). Aprendizaje Automático | Facultad de Informática de Barcelona. Recuperado 2 de abril de 2019, de Aprendizaje Automático—Facultad de informática de Barcelona website: https://www.fib.upc.edu/es/estudios/grados/grado-en-ingenieria-informatica/ plan-de-estudios/asignaturas/APAViera, A. F. G. (2017). Técnicas de aprendizaje de máquina utilizadas para la minería de texto. Investigación bibliotecológica, 31(71), 103-126. https://doi.org/10.22201/iibi.0187358xp.2017.71.57812Wilbur, W. J., & Sirotkin, K. (1992). The automatic identification of stop words. Journal of Information Science, 18(1), 45-55. https://doi.org/10.1177/016555159201800106Witten, L. H., Frank, E., & Hall, M. A. (2011). Data Mining: Practical Machine Learning Tools and Techniques (3.a ed.). USA: Elsevier.Ye, Q., Zhang, Z., & Law, R. (2009). Sentiment classification of online reviews to travel destinations by supervised machine learning approaches. Expert Systems with Applications, 36(3, Part 2), 6527-6535. https://doi.org/10.1016/ j.eswa.2008.07.035Zhang, D., & Lee, W. S. (2006). Extracting Key-substring-group Features for Text Classification. Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 474–483. https://doi.org/10.1145/1150402.1150455ORIGINAL2019_Tesis_David_Elias_Borja.pdf2019_Tesis_David_Elias_Borja.pdfTesisapplication/pdf2850237https://repository.unab.edu.co/bitstream/20.500.12749/14040/1/2019_Tesis_David_Elias_Borja.pdfefd676d67dbc446f99a33e21502717ddMD51open access2019_Licencia_David_Elias_Borja.pdf2019_Licencia_David_Elias_Borja.pdfLicenciaapplication/pdf508573https://repository.unab.edu.co/bitstream/20.500.12749/14040/2/2019_Licencia_David_Elias_Borja.pdf67f277dd108200a2233b07c449761f7dMD52metadata only accessLICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://repository.unab.edu.co/bitstream/20.500.12749/14040/3/license.txt8a4605be74aa9ea9d79846c1fba20a33MD53open accessTHUMBNAIL2019_Tesis_David_Elias_Borja.pdf.jpg2019_Tesis_David_Elias_Borja.pdf.jpgIM Thumbnailimage/jpeg4185https://repository.unab.edu.co/bitstream/20.500.12749/14040/4/2019_Tesis_David_Elias_Borja.pdf.jpg4b3e3a4b44ed7933fc6beb8fac74c96bMD54open access2019_Licencia_David_Elias_Borja.pdf.jpg2019_Licencia_David_Elias_Borja.pdf.jpgIM Thumbnailimage/jpeg9730https://repository.unab.edu.co/bitstream/20.500.12749/14040/5/2019_Licencia_David_Elias_Borja.pdf.jpg66b7cee11f394603c5f7e5e081fca3beMD55metadata only access20.500.12749/14040oai:repository.unab.edu.co:20.500.12749/140402021-10-06 09:31:57.919open accessRepositorio Institucional | Universidad Autónoma de Bucaramanga - UNABrepositorio@unab.edu.coTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=