Prototipo de Herramienta de Software para la Extracción de Información en Documentos PDFf Utilizando un Motor de Base de Datos nosql

En este trabajo se presenta el desarrollo de una herramienta de extracción de información para documentos PDF, cuyo funcionamiento se basa en la combinación de técnicas de rastreo de información, reconocimiento óptico de caracteres y patrones de extracción de información. El principal objetivo es pe...

Full description

Autores:
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
2017
Institución:
Universidad Distrital Francisco José de Caldas
Repositorio:
RIUD: repositorio U. Distrital
Idioma:
spa
OAI Identifier:
oai:repository.udistrital.edu.co:11349/7308
Acceso en línea:
http://hdl.handle.net/11349/7308
Palabra clave:
OCR
Crawler
NLTK
Extracción
INGENIERÍA DE SISTEMAS - TESIS Y DISERTACIONES ACADÉMICAS
RECUPERACIÓN DE INFORMACIÓN - PROGRAMAS PARA COMPUTADOR
DESARROLLO DE PROGRAMAS PARA COMPUTADOR
LINGÜÍSTICA COMPUTACIONAL
OCR
Crawler
NLTK
Extract
Rights
License
Atribución-NoComercial-SinDerivadas 4.0 Internacional
Description
Summary:En este trabajo se presenta el desarrollo de una herramienta de extracción de información para documentos PDF, cuyo funcionamiento se basa en la combinación de técnicas de rastreo de información, reconocimiento óptico de caracteres y patrones de extracción de información. El principal objetivo es permitir la búsqueda de entidades nombradas en documentos PDF que se encuentran alojados en un dominio específico.