Implementación de reconocimiento óptico de caracteres para la digitalización de documentos

RESUMEN: La digitalización de documentos es una ciencia que permite traducir tipos de documentos escaneados o imágenes en datos analizables, editables y buscables. Esto es muy útil, ya que permite guardar datos históricos, jurídicos, culturales, científicos, etc. de forma segura y pueden ser de util...

Full description

Autores:
Sabogal Aristizábal, Camilo Andrés
Tipo de recurso:
Tesis
Fecha de publicación:
2022
Institución:
Universidad de Antioquia
Repositorio:
Repositorio UdeA
Idioma:
spa
OAI Identifier:
oai:bibliotecadigital.udea.edu.co:10495/29178
Acceso en línea:
http://hdl.handle.net/10495/29178
Palabra clave:
Digitalización
Digitization
Aprendizaje automático (inteligencia artificial)
Machine learning
Procesamiento de imágenes
Image processing
Procesamiento óptico de datos
Optical data processing
http://vocabularies.unesco.org/thesaurus/concept7411
Rights
openAccess
License
http://creativecommons.org/licenses/by-nc-nd/2.5/co/
Description
Summary:RESUMEN: La digitalización de documentos es una ciencia que permite traducir tipos de documentos escaneados o imágenes en datos analizables, editables y buscables. Esto es muy útil, ya que permite guardar datos históricos, jurídicos, culturales, científicos, etc. de forma segura y pueden ser de utilidad para investigaciones futuras. Sin embargo, digitalizarlos de forma manual es laborioso y puede tomar mucho tiempo lo que genera grandes costos. Este tipo de digitalizaciones se pueden clasificar en dos categorías: el reconocimiento de caracteres basado en reglas y el reconocimiento de caracteres basado en aprendizaje automático. Por las razones anteriores, es importante contar con herramientas que automaticen este proceso como el aprendizaje automático, ya que así se podrán digitalizar un mayor número de manuscritos en menor tiempo. El proyecto persigue la automatización de la conversión de documentos escaneados a texto editable. Se utilizaron datos de documentos escaneados, exactamente 600 archivos de palabras y documentos, de diferentes fuentes y se siguió una estrategia de mejora incremental para las iteraciones, con el objetivo de desarrollar un modelo de OCR para manuscritos que sea de utilidad al servicio de la comunidad. Los principales obstáculos encontrados fueron la falta de una base de datos de entrenamiento robusta, adecuada y la variabilidad de los formatos de documentos escaneados.