Extracción de información de documentos de identidad utilizando técnicas de aprendizaje de máquina

La extracción automática de información de documentos de identidad es una tarea fundamental en diferentes procesos digitales como registros, solicitud de productos, validación de identidad, entre otros. La extracción de información consiste en la identificación, ubicación, clasificación y reconocimi...

Full description

Autores:
Márquez Aristizábal, Hugo Alejandro
Tipo de recurso:
Fecha de publicación:
2022
Institución:
Universidad Nacional de Colombia
Repositorio:
Universidad Nacional de Colombia
Idioma:
spa
OAI Identifier:
oai:repositorio.unal.edu.co:unal/82000
Acceso en línea:
https://repositorio.unal.edu.co/handle/unal/82000
https://repositorio.unal.edu.co/
Palabra clave:
000 - Ciencias de la computación, información y obras generales::003 - Sistemas
Identidad digital
Reconocimiento óptico de caracteres
Redes neuronales (Computadoers)
Ientidad digital
OCR
Extracción de información
Detección de objetos
Digital identity
Information extraction
Object detection
Rights
openAccess
License
Reconocimiento 4.0 Internacional
Description
Summary:La extracción automática de información de documentos de identidad es una tarea fundamental en diferentes procesos digitales como registros, solicitud de productos, validación de identidad, entre otros. La extracción de información consiste en la identificación, ubicación, clasificación y reconocimiento del texto de campos clave presentes en un documento, en este caso un documento de identidad. Tratándose de documentos de identidad, los campos clave son aquellos como: nombres, apellidos, números de documento, fechas, entre otros. El problema de extracción de información se ha solucionado tradicionalmente utilizando algoritmos basados en reglas y motores clásicos de OCR. En los últimos años se han realizado implementaciones de modelos de aprendizaje de máquina, utilizando modelos de NLP (procesamiento de lenguaje natural) y CV (visión por computador) para solucionar el problema de una manera más flexible y eficiente (Subramani et al., 2020). En este trabajo se propuso solucionar el problema de extracción de información con una aproximación de detección de objetos. Se implementó, entrenó y evaluó un modelo de detección de objetos basado en transformadores (Carion et al., 2020). Se logró llegar a una solución que alcanza valores de precisión superiores al 95% en la detección de campos clave en documentos de identidad. (Texto tomado de la fuente)