Obtener un método para la extracción de información a partir de documentos semiestructurados producidos al interior del Servicio Nacional de Aprendizaje SENA, permitiendo su publicación, reutilización e intercambio a través de la web semántica
Actualmente en el Servicio Nacional de Aprendizaje SENA, existen gran cantidad de archivos, los cuales contienen información textual de manera semiestructurada, lo cual dificulta realizar consultas SQL complejas sobre la información allí contenida, impidiendo que esta información pueda ser utilizada...
- Autores:
-
Abello Diaz, Jhonatan Alejandro
- Tipo de recurso:
- Fecha de publicación:
- 2015
- Institución:
- Universidad Nacional de Colombia
- Repositorio:
- Universidad Nacional de Colombia
- Idioma:
- spa
- OAI Identifier:
- oai:repositorio.unal.edu.co:unal/55743
- Acceso en línea:
- https://repositorio.unal.edu.co/handle/unal/55743
http://bdigital.unal.edu.co/51199/
- Palabra clave:
- 0 Generalidades / Computer science, information and general works
37 Educación / Education
62 Ingeniería y operaciones afines / Engineering
65 Gerencia y servicios auxiliares / Management and public relations
Extracción de información
Gestión del conocimiento
Datos Enlazados
RDF
Ontología
Web Semántica
SENA
Information Extraction
Knowledge Management
Linked Data
RDF
Ontology
Semantic Web
- Rights
- openAccess
- License
- Atribución-NoComercial 4.0 Internacional
Summary: | Actualmente en el Servicio Nacional de Aprendizaje SENA, existen gran cantidad de archivos, los cuales contienen información textual de manera semiestructurada, lo cual dificulta realizar consultas SQL complejas sobre la información allí contenida, impidiendo que esta información pueda ser utilizada de manera activa al interior de la Entidad. Aunque actualmente la entidad posee un avanzado gestor documental, el cual se encarga de gestionar, almacenar e indexar los documentos producidos por procesos realizados al interior de la entidad, la información que se puede extraer de los mismos es bastante limitada, obligando en muchas ocasiones a abrir el documento para poder observar con mayor detalle el contenido en su interior. Además la indexación de estos documentos, en la mayoría de los casos se realiza 100% manual, lo que expone a la entidad a errores humanos debidos a los altos volúmenes de documentos generados, así como a las múltiples fuentes que los generan; Esto impide que la información histórica contenida en estos documentos sea utilizada eficazmente como soporte en la toma de decisiones de la entidad. Para dar una alternativa de solucion a este problema es necesario construir una base de conocimiento siguiendo la estructura y los lineamientos de datos enlazados, que permitan que esta información relevante pueda ser publicada, consultada y usada como insumo vital en la toma de decisiones al interior de la entidad. Para esto durante el desarrollo de este trabajo se pretende obtener un método para la extracción de información a partir de documentos semiestructurados producidos al interior del Servicio Nacional de Aprendizaje SENA, Este método será plasmado en un prototipo que permitirá extraer la información necesaria mediante cuatro fases que abarcan desde la Extracción de Información hasta la fase de Persistencia de conocimiento, de manera que sea posible inferir la información requerida. |
---|