Desarrollo de un sistema de análisis de autoría de textos de literatura de autores hispanohablantes
Tras el notorio auge de aplicaciones de Machine Learning en los últimos años, mayoritariamente del procesamiento de imágenes y audio, son pocas las aplicaciones en el área de la literatura, especialmente el reconocimiento de autoría. Por eso surge la pregunta ¿Qué tan efectivas son las técnicas de M...
- Autores:
-
Borja Macías, David Elías
- Tipo de recurso:
- Trabajo de grado de pregrado
- Fecha de publicación:
- 2019
- Institución:
- Universidad Autónoma de Bucaramanga - UNAB
- Repositorio:
- Repositorio UNAB
- Idioma:
- spa
- OAI Identifier:
- oai:repository.unab.edu.co:20.500.12749/14040
- Acceso en línea:
- http://hdl.handle.net/20.500.12749/14040
- Palabra clave:
- Systems engineer
Technological innovations
Machine learning
Authorship
Literature
Natural language processing
Categorization
Artificial intelligence
Machine theory
Authors
Data processing
Ingeniería de sistemas
Innovaciones tecnológicas
Inteligencia artificial
Teoría de las máquinas
Autores
Procesamiento de datos
Aprendizaje automático
Autoría
Literatura
Lenguaje natural
Procesamiento
Categorización
- Rights
- openAccess
- License
- http://creativecommons.org/licenses/by-nc-nd/2.5/co/
Summary: | Tras el notorio auge de aplicaciones de Machine Learning en los últimos años, mayoritariamente del procesamiento de imágenes y audio, son pocas las aplicaciones en el área de la literatura, especialmente el reconocimiento de autoría. Por eso surge la pregunta ¿Qué tan efectivas son las técnicas de Machine Learning para la identificación de patrones de grandes volúmenes de textos literarios en el contexto hispanoamericano? Por ende, el objetivo de este trabajo fue desarrollar un sistema inteligente de reconocimiento de estilos literarios basado en obras de literatura universal en español, para automatizar la creación de textos que repliquen el estilo de los autores. Para llevar acabo la investigación se realizó una revisión del estado del arte en técnicas de Machine Learning para la problemática de clasificación de textos y el procesamiento del lenguaje natural. Posteriormente se recolectaron 86 obras literarias de dominio público de 8 autores, a la cual se le realizó un preprocesamiento para la extracción de características de frecuencia inversa de documento (TF-IDF), que se usan para formar vectores de características. Los modelos de Machine Learning propuestos fueron Naïve Bayes, Support Vector Machine y K-Nearest Neighbors; para la clasificación, y cadenas de Markov para la generación de texto, siendo el modelo de clasificación con mejor resultado Naïves Bayes con un accuracy de 0.6453125, y mejor valor del hiperparámetro keysize para la cadena de Markov de 3. Teniendo esto en cuenta cabe resaltar las limitaciones tenidas en este proyecto debido a los modelos de Machine Learning utilizados junto a la cantidad de características extraídas, y se recomienda implementar nuevos modelos capacitados en el análisis de series de tiempo temporales. |
---|