Implementación de reconocimiento óptico de caracteres para la digitalización de documentos
RESUMEN: La digitalización de documentos es una ciencia que permite traducir tipos de documentos escaneados o imágenes en datos analizables, editables y buscables. Esto es muy útil, ya que permite guardar datos históricos, jurídicos, culturales, científicos, etc. de forma segura y pueden ser de util...
- Autores:
-
Sabogal Aristizábal, Camilo Andrés
- Tipo de recurso:
- Tesis
- Fecha de publicación:
- 2022
- Institución:
- Universidad de Antioquia
- Repositorio:
- Repositorio UdeA
- Idioma:
- spa
- OAI Identifier:
- oai:bibliotecadigital.udea.edu.co:10495/29178
- Acceso en línea:
- http://hdl.handle.net/10495/29178
- Palabra clave:
- Digitalización
Digitization
Aprendizaje automático (inteligencia artificial)
Machine learning
Procesamiento de imágenes
Image processing
Procesamiento óptico de datos
Optical data processing
http://vocabularies.unesco.org/thesaurus/concept7411
- Rights
- openAccess
- License
- http://creativecommons.org/licenses/by-nc-nd/2.5/co/
id |
UDEA2_203250e39f535fa4958f70ef3adf80da |
---|---|
oai_identifier_str |
oai:bibliotecadigital.udea.edu.co:10495/29178 |
network_acronym_str |
UDEA2 |
network_name_str |
Repositorio UdeA |
repository_id_str |
|
dc.title.spa.fl_str_mv |
Implementación de reconocimiento óptico de caracteres para la digitalización de documentos |
dc.title.alternative.spa.fl_str_mv |
Optical recognition implementation of characters for digitizing documents |
title |
Implementación de reconocimiento óptico de caracteres para la digitalización de documentos |
spellingShingle |
Implementación de reconocimiento óptico de caracteres para la digitalización de documentos Digitalización Digitization Aprendizaje automático (inteligencia artificial) Machine learning Procesamiento de imágenes Image processing Procesamiento óptico de datos Optical data processing http://vocabularies.unesco.org/thesaurus/concept7411 |
title_short |
Implementación de reconocimiento óptico de caracteres para la digitalización de documentos |
title_full |
Implementación de reconocimiento óptico de caracteres para la digitalización de documentos |
title_fullStr |
Implementación de reconocimiento óptico de caracteres para la digitalización de documentos |
title_full_unstemmed |
Implementación de reconocimiento óptico de caracteres para la digitalización de documentos |
title_sort |
Implementación de reconocimiento óptico de caracteres para la digitalización de documentos |
dc.creator.fl_str_mv |
Sabogal Aristizábal, Camilo Andrés |
dc.contributor.advisor.none.fl_str_mv |
Rodríguez Colina, Sebastián |
dc.contributor.author.none.fl_str_mv |
Sabogal Aristizábal, Camilo Andrés |
dc.subject.unesco.none.fl_str_mv |
Digitalización Digitization |
topic |
Digitalización Digitization Aprendizaje automático (inteligencia artificial) Machine learning Procesamiento de imágenes Image processing Procesamiento óptico de datos Optical data processing http://vocabularies.unesco.org/thesaurus/concept7411 |
dc.subject.lemb.none.fl_str_mv |
Aprendizaje automático (inteligencia artificial) Machine learning Procesamiento de imágenes Image processing Procesamiento óptico de datos Optical data processing |
dc.subject.unescouri.none.fl_str_mv |
http://vocabularies.unesco.org/thesaurus/concept7411 |
description |
RESUMEN: La digitalización de documentos es una ciencia que permite traducir tipos de documentos escaneados o imágenes en datos analizables, editables y buscables. Esto es muy útil, ya que permite guardar datos históricos, jurídicos, culturales, científicos, etc. de forma segura y pueden ser de utilidad para investigaciones futuras. Sin embargo, digitalizarlos de forma manual es laborioso y puede tomar mucho tiempo lo que genera grandes costos. Este tipo de digitalizaciones se pueden clasificar en dos categorías: el reconocimiento de caracteres basado en reglas y el reconocimiento de caracteres basado en aprendizaje automático. Por las razones anteriores, es importante contar con herramientas que automaticen este proceso como el aprendizaje automático, ya que así se podrán digitalizar un mayor número de manuscritos en menor tiempo. El proyecto persigue la automatización de la conversión de documentos escaneados a texto editable. Se utilizaron datos de documentos escaneados, exactamente 600 archivos de palabras y documentos, de diferentes fuentes y se siguió una estrategia de mejora incremental para las iteraciones, con el objetivo de desarrollar un modelo de OCR para manuscritos que sea de utilidad al servicio de la comunidad. Los principales obstáculos encontrados fueron la falta de una base de datos de entrenamiento robusta, adecuada y la variabilidad de los formatos de documentos escaneados. |
publishDate |
2022 |
dc.date.accessioned.none.fl_str_mv |
2022-06-14T14:07:05Z |
dc.date.available.none.fl_str_mv |
2022-06-14T14:07:05Z |
dc.date.issued.none.fl_str_mv |
2022 |
dc.type.spa.fl_str_mv |
info:eu-repo/semantics/other |
dc.type.coarversion.fl_str_mv |
http://purl.org/coar/version/c_b1a7d7d4d402bcce |
dc.type.hasversion.spa.fl_str_mv |
info:eu-repo/semantics/draft |
dc.type.coar.spa.fl_str_mv |
http://purl.org/coar/resource_type/c_46ec |
dc.type.redcol.spa.fl_str_mv |
http://purl.org/redcol/resource_type/COther |
dc.type.local.spa.fl_str_mv |
Tesis/Trabajo de grado - Monografía - Especialización |
format |
http://purl.org/coar/resource_type/c_46ec |
status_str |
draft |
dc.identifier.uri.none.fl_str_mv |
http://hdl.handle.net/10495/29178 |
url |
http://hdl.handle.net/10495/29178 |
dc.language.iso.spa.fl_str_mv |
spa |
language |
spa |
dc.rights.spa.fl_str_mv |
info:eu-repo/semantics/openAccess |
dc.rights.uri.*.fl_str_mv |
http://creativecommons.org/licenses/by-nc-nd/2.5/co/ |
dc.rights.accessrights.spa.fl_str_mv |
http://purl.org/coar/access_right/c_abf2 |
dc.rights.creativecommons.spa.fl_str_mv |
https://creativecommons.org/licenses/by-nc-sa/4.0/ |
eu_rights_str_mv |
openAccess |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-nd/2.5/co/ http://purl.org/coar/access_right/c_abf2 https://creativecommons.org/licenses/by-nc-sa/4.0/ |
dc.format.extent.spa.fl_str_mv |
24 |
dc.format.mimetype.spa.fl_str_mv |
application/pdf |
dc.publisher.place.spa.fl_str_mv |
Medellín - Colombia |
institution |
Universidad de Antioquia |
bitstream.url.fl_str_mv |
https://bibliotecadigital.udea.edu.co/bitstream/10495/29178/6/license_rdf https://bibliotecadigital.udea.edu.co/bitstream/10495/29178/7/license.txt https://bibliotecadigital.udea.edu.co/bitstream/10495/29178/5/SabogalCamilo_2022_Implementaci%c3%b3nReconocimientoOptico |
bitstream.checksum.fl_str_mv |
b88b088d9957e670ce3b3fbe2eedbc13 8a4605be74aa9ea9d79846c1fba20a33 5e7289c5b65159016d4e0049e4aef457 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositorio Institucional Universidad de Antioquia |
repository.mail.fl_str_mv |
andres.perez@udea.edu.co |
_version_ |
1812173264539090944 |
spelling |
Rodríguez Colina, SebastiánSabogal Aristizábal, Camilo Andrés2022-06-14T14:07:05Z2022-06-14T14:07:05Z2022http://hdl.handle.net/10495/29178RESUMEN: La digitalización de documentos es una ciencia que permite traducir tipos de documentos escaneados o imágenes en datos analizables, editables y buscables. Esto es muy útil, ya que permite guardar datos históricos, jurídicos, culturales, científicos, etc. de forma segura y pueden ser de utilidad para investigaciones futuras. Sin embargo, digitalizarlos de forma manual es laborioso y puede tomar mucho tiempo lo que genera grandes costos. Este tipo de digitalizaciones se pueden clasificar en dos categorías: el reconocimiento de caracteres basado en reglas y el reconocimiento de caracteres basado en aprendizaje automático. Por las razones anteriores, es importante contar con herramientas que automaticen este proceso como el aprendizaje automático, ya que así se podrán digitalizar un mayor número de manuscritos en menor tiempo. El proyecto persigue la automatización de la conversión de documentos escaneados a texto editable. Se utilizaron datos de documentos escaneados, exactamente 600 archivos de palabras y documentos, de diferentes fuentes y se siguió una estrategia de mejora incremental para las iteraciones, con el objetivo de desarrollar un modelo de OCR para manuscritos que sea de utilidad al servicio de la comunidad. Los principales obstáculos encontrados fueron la falta de una base de datos de entrenamiento robusta, adecuada y la variabilidad de los formatos de documentos escaneados.24application/pdfspainfo:eu-repo/semantics/draftinfo:eu-repo/semantics/otherhttp://purl.org/coar/resource_type/c_46echttp://purl.org/redcol/resource_type/COtherTesis/Trabajo de grado - Monografía - Especializaciónhttp://purl.org/coar/version/c_b1a7d7d4d402bcceinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-nd/2.5/co/http://purl.org/coar/access_right/c_abf2https://creativecommons.org/licenses/by-nc-sa/4.0/Implementación de reconocimiento óptico de caracteres para la digitalización de documentosOptical recognition implementation of characters for digitizing documentsMedellín - ColombiaDigitalizaciónDigitizationAprendizaje automático (inteligencia artificial)Machine learningProcesamiento de imágenesImage processingProcesamiento óptico de datosOptical data processinghttp://vocabularies.unesco.org/thesaurus/concept7411https://github.com/CamiloSaboA-csv/digitalizador_manuscritosEspecialista en Analítica y Ciencia de DatosEspecializaciónFacultad de Ingeniería. Especialización en Analítica y Ciencia de DatosUniversidad de AntioquiaCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8823https://bibliotecadigital.udea.edu.co/bitstream/10495/29178/6/license_rdfb88b088d9957e670ce3b3fbe2eedbc13MD56LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://bibliotecadigital.udea.edu.co/bitstream/10495/29178/7/license.txt8a4605be74aa9ea9d79846c1fba20a33MD57ORIGINALSabogalCamilo_2022_ImplementaciónReconocimientoOpticoSabogalCamilo_2022_ImplementaciónReconocimientoOpticoTrabajo de grado de especializaciónapplication/pdf1752209https://bibliotecadigital.udea.edu.co/bitstream/10495/29178/5/SabogalCamilo_2022_Implementaci%c3%b3nReconocimientoOptico5e7289c5b65159016d4e0049e4aef457MD5510495/29178oai:bibliotecadigital.udea.edu.co:10495/291782022-06-14 09:07:51.327Repositorio Institucional Universidad de Antioquiaandres.perez@udea.edu.coTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo= |