Implementación de modelado de tópicos a partir de la extracción de texto con OCR en documentos del virreinato de la Nueva Granada en el siglo XVIII.

Esta propuesta nace de un proyecto que la profesora Maria José Afanador Llach, definió y nombró como: "Inventar la Gran Colombia: Utopía, producción de conocimiento y la economía política del espacio". Este busca aprovechar herramientas digitales que apoyen el proceso de investigación para...

Full description

Autores:
Rangel Mora, Santiago
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
2021
Institución:
Universidad de los Andes
Repositorio:
Séneca: repositorio Uniandes
Idioma:
spa
OAI Identifier:
oai:repositorio.uniandes.edu.co:1992/53014
Acceso en línea:
http://hdl.handle.net/1992/53014
Palabra clave:
Virreinato
Nueva Granada
Documentos
Diseño con ayuda de computador
Análisis de información
Visualización de la información
Ingeniería
Rights
openAccess
License
http://creativecommons.org/licenses/by-nc-nd/4.0/
Description
Summary:Esta propuesta nace de un proyecto que la profesora Maria José Afanador Llach, definió y nombró como: "Inventar la Gran Colombia: Utopía, producción de conocimiento y la economía política del espacio". Este busca aprovechar herramientas digitales que apoyen el proceso de investigación para un conjunto de documentos del siglo XVIII dado que normalmente en estos procesos se limitan a usar metodologías tradicionales (como la lectura en detalle del texto) para analizar el documento. Se trabajó teniendo como insumo un conjunto inicial de 84 documentos del siglo XVII. Con esta motivación se planteó una solución constituida de tres pasos principales: OCR para los documentos, usar el texto plano obtenido para implementar algoritmos de procesamientos de lenguaje natural y finalmente implementar una interfaz que permita visualizar los resultados de estos análisis. Para la primera fase, se obtuvieron resultados muy variados relativos al tipo de impresión e imagen que se estaba analizando. Por esta razón se acotó el conjunto de documentos inicial debido a limitaciones de estos. Luego, se realizaron pruebas del modelado de tópicos para el cual se tuvo que hacer una limpieza y depuración de fondo para obtener resultados relevantes. Al final se obtuvo una interfaz desplegada sobre una máquina virtual que permite explorar los resultados obtenidos del procesamiento de los documentos. También permite volver a ejecutar el modelo sobre diferentes periodos de tiempo. De esta manera, el resultado obtenido fue solo una primera iteración sobre el proyecto y funciona como cimiento para posteriores adiciones a la plataforma e implementación de otras técnicas y herramientas de minería de texto que podrían ser aprovechadas y usadas dentro del marco del proyecto "Inventar Colombia".