Análisis automático de documentos con contenido histórico en español
Documents written in ancient languages present several challenges when processing and extracting information from them, so it is necessary to develop specialized systems for their analysis. This project will be concerned with developing a tool that, through natural language processing techniques, al...
- Autores:
-
Ocampo Vargas, María José
- Tipo de recurso:
- Trabajo de grado de pregrado
- Fecha de publicación:
- 2020
- Institución:
- Universidad de los Andes
- Repositorio:
- Séneca: repositorio Uniandes
- Idioma:
- spa
- OAI Identifier:
- oai:repositorio.uniandes.edu.co:1992/51460
- Acceso en línea:
- http://hdl.handle.net/1992/51460
- Palabra clave:
- Procesamiento de lenguaje natural (Computación)
Español antiguo
Historia
Ingeniería
- Rights
- openAccess
- License
- http://creativecommons.org/licenses/by-nc-nd/4.0/
id |
UNIANDES2_fa18ef0190263bc84210bc6073746e96 |
---|---|
oai_identifier_str |
oai:repositorio.uniandes.edu.co:1992/51460 |
network_acronym_str |
UNIANDES2 |
network_name_str |
Séneca: repositorio Uniandes |
repository_id_str |
|
dc.title.spa.fl_str_mv |
Análisis automático de documentos con contenido histórico en español |
title |
Análisis automático de documentos con contenido histórico en español |
spellingShingle |
Análisis automático de documentos con contenido histórico en español Procesamiento de lenguaje natural (Computación) Español antiguo Historia Ingeniería |
title_short |
Análisis automático de documentos con contenido histórico en español |
title_full |
Análisis automático de documentos con contenido histórico en español |
title_fullStr |
Análisis automático de documentos con contenido histórico en español |
title_full_unstemmed |
Análisis automático de documentos con contenido histórico en español |
title_sort |
Análisis automático de documentos con contenido histórico en español |
dc.creator.fl_str_mv |
Ocampo Vargas, María José |
dc.contributor.advisor.none.fl_str_mv |
Jiménez Guarín, Claudia Lucía Gutiérrez Salamanca, Mariano Arturo |
dc.contributor.author.none.fl_str_mv |
Ocampo Vargas, María José |
dc.subject.armarc.spa.fl_str_mv |
Procesamiento de lenguaje natural (Computación) Español antiguo Historia |
topic |
Procesamiento de lenguaje natural (Computación) Español antiguo Historia Ingeniería |
dc.subject.themes.none.fl_str_mv |
Ingeniería |
description |
Documents written in ancient languages present several challenges when processing and extracting information from them, so it is necessary to develop specialized systems for their analysis. This project will be concerned with developing a tool that, through natural language processing techniques, allows the historian to navigate more easily through the content of the book General and natural history of the Indies, islands and the mainland of the sea. ocean written by Gonzalo Fernández de Oviedo. With this in mind, the construction of: a dictionary between current Spanish and average Spanish to normalize spelling, a model for the recognition of 18 types of entities, a process that allows to extract the syntactic relationships between the entities and a Web page that allows you to view all the results obtained. As a result, 98.39% of volume two of the book written by Oviedo is corrected; Also, a model is successfully trained to recognize the types of entities proposed by the expert, from which a total of 19,496 entities are recognized; Finally, a complete Web page is developed that allows building a graph of relationships between entities and visualizing all the results obtained. |
publishDate |
2020 |
dc.date.issued.none.fl_str_mv |
2020 |
dc.date.accessioned.none.fl_str_mv |
2021-08-10T18:26:10Z |
dc.date.available.none.fl_str_mv |
2021-08-10T18:26:10Z |
dc.type.spa.fl_str_mv |
Trabajo de grado - Pregrado |
dc.type.coarversion.fl_str_mv |
http://purl.org/coar/version/c_970fb48d4fbd8a85 |
dc.type.driver.spa.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
dc.type.coar.spa.fl_str_mv |
http://purl.org/coar/resource_type/c_7a1f |
dc.type.content.spa.fl_str_mv |
Text |
dc.type.redcol.spa.fl_str_mv |
http://purl.org/redcol/resource_type/TP |
format |
http://purl.org/coar/resource_type/c_7a1f |
dc.identifier.uri.none.fl_str_mv |
http://hdl.handle.net/1992/51460 |
dc.identifier.pdf.none.fl_str_mv |
22681.pdf |
dc.identifier.instname.spa.fl_str_mv |
instname:Universidad de los Andes |
dc.identifier.reponame.spa.fl_str_mv |
reponame:Repositorio Institucional Séneca |
dc.identifier.repourl.spa.fl_str_mv |
repourl:https://repositorio.uniandes.edu.co/ |
url |
http://hdl.handle.net/1992/51460 |
identifier_str_mv |
22681.pdf instname:Universidad de los Andes reponame:Repositorio Institucional Séneca repourl:https://repositorio.uniandes.edu.co/ |
dc.language.iso.none.fl_str_mv |
spa |
language |
spa |
dc.rights.uri.*.fl_str_mv |
http://creativecommons.org/licenses/by-nc-nd/4.0/ |
dc.rights.accessrights.spa.fl_str_mv |
info:eu-repo/semantics/openAccess |
dc.rights.coar.spa.fl_str_mv |
http://purl.org/coar/access_right/c_abf2 |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-nd/4.0/ http://purl.org/coar/access_right/c_abf2 |
eu_rights_str_mv |
openAccess |
dc.format.extent.none.fl_str_mv |
41 hojas |
dc.format.mimetype.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidad de los Andes |
dc.publisher.program.none.fl_str_mv |
Ingeniería de Sistemas y Computación |
dc.publisher.faculty.none.fl_str_mv |
Facultad de Ingeniería |
dc.publisher.department.none.fl_str_mv |
Departamento de Ingeniería de Sistemas y Computación |
publisher.none.fl_str_mv |
Universidad de los Andes |
institution |
Universidad de los Andes |
bitstream.url.fl_str_mv |
https://repositorio.uniandes.edu.co/bitstreams/f52bbc3c-f78b-4a0e-8663-87c5d371b784/download https://repositorio.uniandes.edu.co/bitstreams/2517900e-63be-4166-8838-9e8451538031/download https://repositorio.uniandes.edu.co/bitstreams/2d9c0d98-6bb3-45bb-b567-b324fafd9cb6/download |
bitstream.checksum.fl_str_mv |
3324023cbac9deb32fad3402ca999c58 a0786e25d4616441e5eb8d74cff0f914 3d505ce7be8f56f089c85a720cc21471 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositorio institucional Séneca |
repository.mail.fl_str_mv |
adminrepositorio@uniandes.edu.co |
_version_ |
1818111709342072832 |
spelling |
Al consultar y hacer uso de este recurso, está aceptando las condiciones de uso establecidas por los autores.http://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Jiménez Guarín, Claudia Lucíaceda5fef-a1ec-42ef-a241-681f2079bcc1500Gutiérrez Salamanca, Mariano Arturovirtual::2295-1Ocampo Vargas, María Josébc9a4e14-def2-4a6a-908a-c84f8e2751b35002021-08-10T18:26:10Z2021-08-10T18:26:10Z2020http://hdl.handle.net/1992/5146022681.pdfinstname:Universidad de los Andesreponame:Repositorio Institucional Sénecarepourl:https://repositorio.uniandes.edu.co/Documents written in ancient languages present several challenges when processing and extracting information from them, so it is necessary to develop specialized systems for their analysis. This project will be concerned with developing a tool that, through natural language processing techniques, allows the historian to navigate more easily through the content of the book General and natural history of the Indies, islands and the mainland of the sea. ocean written by Gonzalo Fernández de Oviedo. With this in mind, the construction of: a dictionary between current Spanish and average Spanish to normalize spelling, a model for the recognition of 18 types of entities, a process that allows to extract the syntactic relationships between the entities and a Web page that allows you to view all the results obtained. As a result, 98.39% of volume two of the book written by Oviedo is corrected; Also, a model is successfully trained to recognize the types of entities proposed by the expert, from which a total of 19,496 entities are recognized; Finally, a complete Web page is developed that allows building a graph of relationships between entities and visualizing all the results obtained.Los documentos escritos en idiomas antiguos presentan varios retos al momento de procesarlos y extraer información de ellos, por lo que es necesario desarrollar sistemas especializados para el análisis de estos. Este proyecto se va a ocupar de desarrollar una herramienta que, por medio de técnicas de procesamiento de lenguaje natural, le permita al historiador navegar con mayor facilidad a través del contenido del libro Historia general y natural de las Indias, islas y tierra firme del mar océano escrito por Gonzalo Fernández de Oviedo. Con esto en mente, se realiza la construcción de: un diccionario entre el español actual y el español medio para normalizar la ortografía, un modelo para el reconocimiento de 18 tipos de entidades, un proceso que permite extraer las relaciones sintácticas entre las entidades y una página Web que permite visualizar todos los resultados obtenidos. Como resultado, se logra corregir el 98,39% del tomo dos del libro escrito por Oviedo; también, se entrena con éxito un modelo para el reconocimiento de los tipos de entidades propuestos por el experto, a partir del cual, se reconoce un total de 19496 entidades; por último, se desarrolla en su completitud una página Web que permite construir un grafo de relaciones entre entidades y visualizar todos los resultados obtenidos.Ingeniero de Sistemas y ComputaciónPregrado41 hojasapplication/pdfspaUniversidad de los AndesIngeniería de Sistemas y ComputaciónFacultad de IngenieríaDepartamento de Ingeniería de Sistemas y ComputaciónAnálisis automático de documentos con contenido histórico en españolTrabajo de grado - Pregradoinfo:eu-repo/semantics/bachelorThesishttp://purl.org/coar/resource_type/c_7a1fhttp://purl.org/coar/version/c_970fb48d4fbd8a85Texthttp://purl.org/redcol/resource_type/TPProcesamiento de lenguaje natural (Computación)Español antiguoHistoriaIngeniería201719100Publication46b2c5b6-4556-48d7-babc-0eb377d8bf33virtual::2295-146b2c5b6-4556-48d7-babc-0eb377d8bf33virtual::2295-1THUMBNAIL22681.pdf.jpg22681.pdf.jpgIM Thumbnailimage/jpeg4176https://repositorio.uniandes.edu.co/bitstreams/f52bbc3c-f78b-4a0e-8663-87c5d371b784/download3324023cbac9deb32fad3402ca999c58MD55ORIGINAL22681.pdfapplication/pdf8029192https://repositorio.uniandes.edu.co/bitstreams/2517900e-63be-4166-8838-9e8451538031/downloada0786e25d4616441e5eb8d74cff0f914MD51TEXT22681.pdf.txt22681.pdf.txtExtracted texttext/plain1277https://repositorio.uniandes.edu.co/bitstreams/2d9c0d98-6bb3-45bb-b567-b324fafd9cb6/download3d505ce7be8f56f089c85a720cc21471MD541992/51460oai:repositorio.uniandes.edu.co:1992/514602024-03-13 12:10:09.374http://creativecommons.org/licenses/by-nc-nd/4.0/open.accesshttps://repositorio.uniandes.edu.coRepositorio institucional Sénecaadminrepositorio@uniandes.edu.co |