Análisis automático de documentos con contenido histórico en español

Documents written in ancient languages present several challenges when processing and extracting information from them, so it is necessary to develop specialized systems for their analysis. This project will be concerned with developing a tool that, through natural language processing techniques, al...

Full description

Autores:
Ocampo Vargas, María José
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
2020
Institución:
Universidad de los Andes
Repositorio:
Séneca: repositorio Uniandes
Idioma:
spa
OAI Identifier:
oai:repositorio.uniandes.edu.co:1992/51460
Acceso en línea:
http://hdl.handle.net/1992/51460
Palabra clave:
Procesamiento de lenguaje natural (Computación)
Español antiguo
Historia
Ingeniería
Rights
openAccess
License
http://creativecommons.org/licenses/by-nc-nd/4.0/
id UNIANDES2_fa18ef0190263bc84210bc6073746e96
oai_identifier_str oai:repositorio.uniandes.edu.co:1992/51460
network_acronym_str UNIANDES2
network_name_str Séneca: repositorio Uniandes
repository_id_str
dc.title.spa.fl_str_mv Análisis automático de documentos con contenido histórico en español
title Análisis automático de documentos con contenido histórico en español
spellingShingle Análisis automático de documentos con contenido histórico en español
Procesamiento de lenguaje natural (Computación)
Español antiguo
Historia
Ingeniería
title_short Análisis automático de documentos con contenido histórico en español
title_full Análisis automático de documentos con contenido histórico en español
title_fullStr Análisis automático de documentos con contenido histórico en español
title_full_unstemmed Análisis automático de documentos con contenido histórico en español
title_sort Análisis automático de documentos con contenido histórico en español
dc.creator.fl_str_mv Ocampo Vargas, María José
dc.contributor.advisor.none.fl_str_mv Jiménez Guarín, Claudia Lucía
Gutiérrez Salamanca, Mariano Arturo
dc.contributor.author.none.fl_str_mv Ocampo Vargas, María José
dc.subject.armarc.spa.fl_str_mv Procesamiento de lenguaje natural (Computación)
Español antiguo
Historia
topic Procesamiento de lenguaje natural (Computación)
Español antiguo
Historia
Ingeniería
dc.subject.themes.none.fl_str_mv Ingeniería
description Documents written in ancient languages present several challenges when processing and extracting information from them, so it is necessary to develop specialized systems for their analysis. This project will be concerned with developing a tool that, through natural language processing techniques, allows the historian to navigate more easily through the content of the book General and natural history of the Indies, islands and the mainland of the sea. ocean written by Gonzalo Fernández de Oviedo. With this in mind, the construction of: a dictionary between current Spanish and average Spanish to normalize spelling, a model for the recognition of 18 types of entities, a process that allows to extract the syntactic relationships between the entities and a Web page that allows you to view all the results obtained. As a result, 98.39% of volume two of the book written by Oviedo is corrected; Also, a model is successfully trained to recognize the types of entities proposed by the expert, from which a total of 19,496 entities are recognized; Finally, a complete Web page is developed that allows building a graph of relationships between entities and visualizing all the results obtained.
publishDate 2020
dc.date.issued.none.fl_str_mv 2020
dc.date.accessioned.none.fl_str_mv 2021-08-10T18:26:10Z
dc.date.available.none.fl_str_mv 2021-08-10T18:26:10Z
dc.type.spa.fl_str_mv Trabajo de grado - Pregrado
dc.type.coarversion.fl_str_mv http://purl.org/coar/version/c_970fb48d4fbd8a85
dc.type.driver.spa.fl_str_mv info:eu-repo/semantics/bachelorThesis
dc.type.coar.spa.fl_str_mv http://purl.org/coar/resource_type/c_7a1f
dc.type.content.spa.fl_str_mv Text
dc.type.redcol.spa.fl_str_mv http://purl.org/redcol/resource_type/TP
format http://purl.org/coar/resource_type/c_7a1f
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/1992/51460
dc.identifier.pdf.none.fl_str_mv 22681.pdf
dc.identifier.instname.spa.fl_str_mv instname:Universidad de los Andes
dc.identifier.reponame.spa.fl_str_mv reponame:Repositorio Institucional Séneca
dc.identifier.repourl.spa.fl_str_mv repourl:https://repositorio.uniandes.edu.co/
url http://hdl.handle.net/1992/51460
identifier_str_mv 22681.pdf
instname:Universidad de los Andes
reponame:Repositorio Institucional Séneca
repourl:https://repositorio.uniandes.edu.co/
dc.language.iso.none.fl_str_mv spa
language spa
dc.rights.uri.*.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/4.0/
dc.rights.accessrights.spa.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.coar.spa.fl_str_mv http://purl.org/coar/access_right/c_abf2
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-nd/4.0/
http://purl.org/coar/access_right/c_abf2
eu_rights_str_mv openAccess
dc.format.extent.none.fl_str_mv 41 hojas
dc.format.mimetype.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidad de los Andes
dc.publisher.program.none.fl_str_mv Ingeniería de Sistemas y Computación
dc.publisher.faculty.none.fl_str_mv Facultad de Ingeniería
dc.publisher.department.none.fl_str_mv Departamento de Ingeniería de Sistemas y Computación
publisher.none.fl_str_mv Universidad de los Andes
institution Universidad de los Andes
bitstream.url.fl_str_mv https://repositorio.uniandes.edu.co/bitstreams/f52bbc3c-f78b-4a0e-8663-87c5d371b784/download
https://repositorio.uniandes.edu.co/bitstreams/2517900e-63be-4166-8838-9e8451538031/download
https://repositorio.uniandes.edu.co/bitstreams/2d9c0d98-6bb3-45bb-b567-b324fafd9cb6/download
bitstream.checksum.fl_str_mv 3324023cbac9deb32fad3402ca999c58
a0786e25d4616441e5eb8d74cff0f914
3d505ce7be8f56f089c85a720cc21471
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositorio institucional Séneca
repository.mail.fl_str_mv adminrepositorio@uniandes.edu.co
_version_ 1818111709342072832
spelling Al consultar y hacer uso de este recurso, está aceptando las condiciones de uso establecidas por los autores.http://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Jiménez Guarín, Claudia Lucíaceda5fef-a1ec-42ef-a241-681f2079bcc1500Gutiérrez Salamanca, Mariano Arturovirtual::2295-1Ocampo Vargas, María Josébc9a4e14-def2-4a6a-908a-c84f8e2751b35002021-08-10T18:26:10Z2021-08-10T18:26:10Z2020http://hdl.handle.net/1992/5146022681.pdfinstname:Universidad de los Andesreponame:Repositorio Institucional Sénecarepourl:https://repositorio.uniandes.edu.co/Documents written in ancient languages present several challenges when processing and extracting information from them, so it is necessary to develop specialized systems for their analysis. This project will be concerned with developing a tool that, through natural language processing techniques, allows the historian to navigate more easily through the content of the book General and natural history of the Indies, islands and the mainland of the sea. ocean written by Gonzalo Fernández de Oviedo. With this in mind, the construction of: a dictionary between current Spanish and average Spanish to normalize spelling, a model for the recognition of 18 types of entities, a process that allows to extract the syntactic relationships between the entities and a Web page that allows you to view all the results obtained. As a result, 98.39% of volume two of the book written by Oviedo is corrected; Also, a model is successfully trained to recognize the types of entities proposed by the expert, from which a total of 19,496 entities are recognized; Finally, a complete Web page is developed that allows building a graph of relationships between entities and visualizing all the results obtained.Los documentos escritos en idiomas antiguos presentan varios retos al momento de procesarlos y extraer información de ellos, por lo que es necesario desarrollar sistemas especializados para el análisis de estos. Este proyecto se va a ocupar de desarrollar una herramienta que, por medio de técnicas de procesamiento de lenguaje natural, le permita al historiador navegar con mayor facilidad a través del contenido del libro Historia general y natural de las Indias, islas y tierra firme del mar océano escrito por Gonzalo Fernández de Oviedo. Con esto en mente, se realiza la construcción de: un diccionario entre el español actual y el español medio para normalizar la ortografía, un modelo para el reconocimiento de 18 tipos de entidades, un proceso que permite extraer las relaciones sintácticas entre las entidades y una página Web que permite visualizar todos los resultados obtenidos. Como resultado, se logra corregir el 98,39% del tomo dos del libro escrito por Oviedo; también, se entrena con éxito un modelo para el reconocimiento de los tipos de entidades propuestos por el experto, a partir del cual, se reconoce un total de 19496 entidades; por último, se desarrolla en su completitud una página Web que permite construir un grafo de relaciones entre entidades y visualizar todos los resultados obtenidos.Ingeniero de Sistemas y ComputaciónPregrado41 hojasapplication/pdfspaUniversidad de los AndesIngeniería de Sistemas y ComputaciónFacultad de IngenieríaDepartamento de Ingeniería de Sistemas y ComputaciónAnálisis automático de documentos con contenido histórico en españolTrabajo de grado - Pregradoinfo:eu-repo/semantics/bachelorThesishttp://purl.org/coar/resource_type/c_7a1fhttp://purl.org/coar/version/c_970fb48d4fbd8a85Texthttp://purl.org/redcol/resource_type/TPProcesamiento de lenguaje natural (Computación)Español antiguoHistoriaIngeniería201719100Publication46b2c5b6-4556-48d7-babc-0eb377d8bf33virtual::2295-146b2c5b6-4556-48d7-babc-0eb377d8bf33virtual::2295-1THUMBNAIL22681.pdf.jpg22681.pdf.jpgIM Thumbnailimage/jpeg4176https://repositorio.uniandes.edu.co/bitstreams/f52bbc3c-f78b-4a0e-8663-87c5d371b784/download3324023cbac9deb32fad3402ca999c58MD55ORIGINAL22681.pdfapplication/pdf8029192https://repositorio.uniandes.edu.co/bitstreams/2517900e-63be-4166-8838-9e8451538031/downloada0786e25d4616441e5eb8d74cff0f914MD51TEXT22681.pdf.txt22681.pdf.txtExtracted texttext/plain1277https://repositorio.uniandes.edu.co/bitstreams/2d9c0d98-6bb3-45bb-b567-b324fafd9cb6/download3d505ce7be8f56f089c85a720cc21471MD541992/51460oai:repositorio.uniandes.edu.co:1992/514602024-03-13 12:10:09.374http://creativecommons.org/licenses/by-nc-nd/4.0/open.accesshttps://repositorio.uniandes.edu.coRepositorio institucional Sénecaadminrepositorio@uniandes.edu.co