Obtener un método para la extracción de información a partir de documentos semiestructurados producidos al interior del Servicio Nacional de Aprendizaje SENA, permitiendo su publicación, reutilización e intercambio a través de la web semántica

Actualmente en el Servicio Nacional de Aprendizaje SENA, existen gran cantidad de archivos, los cuales contienen información textual de manera semiestructurada, lo cual dificulta realizar consultas SQL complejas sobre la información allí contenida, impidiendo que esta información pueda ser utilizada...

Full description

Autores:
Abello Diaz, Jhonatan Alejandro
Tipo de recurso:
Fecha de publicación:
2015
Institución:
Universidad Nacional de Colombia
Repositorio:
Universidad Nacional de Colombia
Idioma:
spa
OAI Identifier:
oai:repositorio.unal.edu.co:unal/55743
Acceso en línea:
https://repositorio.unal.edu.co/handle/unal/55743
http://bdigital.unal.edu.co/51199/
Palabra clave:
0 Generalidades / Computer science, information and general works
37 Educación / Education
62 Ingeniería y operaciones afines / Engineering
65 Gerencia y servicios auxiliares / Management and public relations
Extracción de información
Gestión del conocimiento
Datos Enlazados
RDF
Ontología
Web Semántica
SENA
Information Extraction
Knowledge Management
Linked Data
RDF
Ontology
Semantic Web
Rights
openAccess
License
Atribución-NoComercial 4.0 Internacional
id UNACIONAL2_adc67e3c3b14942eb67a69de39b094c0
oai_identifier_str oai:repositorio.unal.edu.co:unal/55743
network_acronym_str UNACIONAL2
network_name_str Universidad Nacional de Colombia
repository_id_str
dc.title.spa.fl_str_mv Obtener un método para la extracción de información a partir de documentos semiestructurados producidos al interior del Servicio Nacional de Aprendizaje SENA, permitiendo su publicación, reutilización e intercambio a través de la web semántica
title Obtener un método para la extracción de información a partir de documentos semiestructurados producidos al interior del Servicio Nacional de Aprendizaje SENA, permitiendo su publicación, reutilización e intercambio a través de la web semántica
spellingShingle Obtener un método para la extracción de información a partir de documentos semiestructurados producidos al interior del Servicio Nacional de Aprendizaje SENA, permitiendo su publicación, reutilización e intercambio a través de la web semántica
0 Generalidades / Computer science, information and general works
37 Educación / Education
62 Ingeniería y operaciones afines / Engineering
65 Gerencia y servicios auxiliares / Management and public relations
Extracción de información
Gestión del conocimiento
Datos Enlazados
RDF
Ontología
Web Semántica
SENA
Information Extraction
Knowledge Management
Linked Data
RDF
Ontology
Semantic Web
title_short Obtener un método para la extracción de información a partir de documentos semiestructurados producidos al interior del Servicio Nacional de Aprendizaje SENA, permitiendo su publicación, reutilización e intercambio a través de la web semántica
title_full Obtener un método para la extracción de información a partir de documentos semiestructurados producidos al interior del Servicio Nacional de Aprendizaje SENA, permitiendo su publicación, reutilización e intercambio a través de la web semántica
title_fullStr Obtener un método para la extracción de información a partir de documentos semiestructurados producidos al interior del Servicio Nacional de Aprendizaje SENA, permitiendo su publicación, reutilización e intercambio a través de la web semántica
title_full_unstemmed Obtener un método para la extracción de información a partir de documentos semiestructurados producidos al interior del Servicio Nacional de Aprendizaje SENA, permitiendo su publicación, reutilización e intercambio a través de la web semántica
title_sort Obtener un método para la extracción de información a partir de documentos semiestructurados producidos al interior del Servicio Nacional de Aprendizaje SENA, permitiendo su publicación, reutilización e intercambio a través de la web semántica
dc.creator.fl_str_mv Abello Diaz, Jhonatan Alejandro
dc.contributor.author.spa.fl_str_mv Abello Diaz, Jhonatan Alejandro
dc.contributor.spa.fl_str_mv Rosero Muñoz, Mario Armando
dc.subject.ddc.spa.fl_str_mv 0 Generalidades / Computer science, information and general works
37 Educación / Education
62 Ingeniería y operaciones afines / Engineering
65 Gerencia y servicios auxiliares / Management and public relations
topic 0 Generalidades / Computer science, information and general works
37 Educación / Education
62 Ingeniería y operaciones afines / Engineering
65 Gerencia y servicios auxiliares / Management and public relations
Extracción de información
Gestión del conocimiento
Datos Enlazados
RDF
Ontología
Web Semántica
SENA
Information Extraction
Knowledge Management
Linked Data
RDF
Ontology
Semantic Web
dc.subject.proposal.spa.fl_str_mv Extracción de información
Gestión del conocimiento
Datos Enlazados
RDF
Ontología
Web Semántica
SENA
Information Extraction
Knowledge Management
Linked Data
RDF
Ontology
Semantic Web
description Actualmente en el Servicio Nacional de Aprendizaje SENA, existen gran cantidad de archivos, los cuales contienen información textual de manera semiestructurada, lo cual dificulta realizar consultas SQL complejas sobre la información allí contenida, impidiendo que esta información pueda ser utilizada de manera activa al interior de la Entidad. Aunque actualmente la entidad posee un avanzado gestor documental, el cual se encarga de gestionar, almacenar e indexar los documentos producidos por procesos realizados al interior de la entidad, la información que se puede extraer de los mismos es bastante limitada, obligando en muchas ocasiones a abrir el documento para poder observar con mayor detalle el contenido en su interior. Además la indexación de estos documentos, en la mayoría de los casos se realiza 100% manual, lo que expone a la entidad a errores humanos debidos a los altos volúmenes de documentos generados, así como a las múltiples fuentes que los generan; Esto impide que la información histórica contenida en estos documentos sea utilizada eficazmente como soporte en la toma de decisiones de la entidad. Para dar una alternativa de solucion a este problema es necesario construir una base de conocimiento siguiendo la estructura y los lineamientos de datos enlazados, que permitan que esta información relevante pueda ser publicada, consultada y usada como insumo vital en la toma de decisiones al interior de la entidad. Para esto durante el desarrollo de este trabajo se pretende obtener un método para la extracción de información a partir de documentos semiestructurados producidos al interior del Servicio Nacional de Aprendizaje SENA, Este método será plasmado en un prototipo que permitirá extraer la información necesaria mediante cuatro fases que abarcan desde la Extracción de Información hasta la fase de Persistencia de conocimiento, de manera que sea posible inferir la información requerida.
publishDate 2015
dc.date.issued.spa.fl_str_mv 2015
dc.date.accessioned.spa.fl_str_mv 2019-07-02T11:27:20Z
dc.date.available.spa.fl_str_mv 2019-07-02T11:27:20Z
dc.type.spa.fl_str_mv Trabajo de grado - Maestría
dc.type.driver.spa.fl_str_mv info:eu-repo/semantics/masterThesis
dc.type.version.spa.fl_str_mv info:eu-repo/semantics/acceptedVersion
dc.type.content.spa.fl_str_mv Text
dc.type.redcol.spa.fl_str_mv http://purl.org/redcol/resource_type/TM
status_str acceptedVersion
dc.identifier.uri.none.fl_str_mv https://repositorio.unal.edu.co/handle/unal/55743
dc.identifier.eprints.spa.fl_str_mv http://bdigital.unal.edu.co/51199/
url https://repositorio.unal.edu.co/handle/unal/55743
http://bdigital.unal.edu.co/51199/
dc.language.iso.spa.fl_str_mv spa
language spa
dc.relation.ispartof.spa.fl_str_mv Universidad Nacional de Colombia Sede Bogotá Facultad de Ingeniería Departamento de Ingeniería de Sistemas e Industrial Ingeniería de Sistemas
Ingeniería de Sistemas
dc.relation.references.spa.fl_str_mv Abello Diaz, Jhonatan Alejandro (2015) Obtener un método para la extracción de información a partir de documentos semiestructurados producidos al interior del Servicio Nacional de Aprendizaje SENA, permitiendo su publicación, reutilización e intercambio a través de la web semántica. Maestría thesis, Universidad Nacional de Colombia - Sede Bogotá.
dc.rights.spa.fl_str_mv Derechos reservados - Universidad Nacional de Colombia
dc.rights.coar.fl_str_mv http://purl.org/coar/access_right/c_abf2
dc.rights.license.spa.fl_str_mv Atribución-NoComercial 4.0 Internacional
dc.rights.uri.spa.fl_str_mv http://creativecommons.org/licenses/by-nc/4.0/
dc.rights.accessrights.spa.fl_str_mv info:eu-repo/semantics/openAccess
rights_invalid_str_mv Atribución-NoComercial 4.0 Internacional
Derechos reservados - Universidad Nacional de Colombia
http://creativecommons.org/licenses/by-nc/4.0/
http://purl.org/coar/access_right/c_abf2
eu_rights_str_mv openAccess
dc.format.mimetype.spa.fl_str_mv application/pdf
institution Universidad Nacional de Colombia
bitstream.url.fl_str_mv https://repositorio.unal.edu.co/bitstream/unal/55743/1/jhonatanalejandroabellodiaz.2015.pdf
https://repositorio.unal.edu.co/bitstream/unal/55743/2/jhonatanalejandroabellodiaz.2015.pdf.jpg
bitstream.checksum.fl_str_mv f8633a911f1e505ec4754099eb6636ff
260d2b2b8565ed27970813c771ee4c28
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositorio Institucional Universidad Nacional de Colombia
repository.mail.fl_str_mv repositorio_nal@unal.edu.co
_version_ 1814089269556281344
spelling Atribución-NoComercial 4.0 InternacionalDerechos reservados - Universidad Nacional de Colombiahttp://creativecommons.org/licenses/by-nc/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Rosero Muñoz, Mario ArmandoAbello Diaz, Jhonatan Alejandrodd3d3892-6da0-4bc0-b499-f2afbb6069183002019-07-02T11:27:20Z2019-07-02T11:27:20Z2015https://repositorio.unal.edu.co/handle/unal/55743http://bdigital.unal.edu.co/51199/Actualmente en el Servicio Nacional de Aprendizaje SENA, existen gran cantidad de archivos, los cuales contienen información textual de manera semiestructurada, lo cual dificulta realizar consultas SQL complejas sobre la información allí contenida, impidiendo que esta información pueda ser utilizada de manera activa al interior de la Entidad. Aunque actualmente la entidad posee un avanzado gestor documental, el cual se encarga de gestionar, almacenar e indexar los documentos producidos por procesos realizados al interior de la entidad, la información que se puede extraer de los mismos es bastante limitada, obligando en muchas ocasiones a abrir el documento para poder observar con mayor detalle el contenido en su interior. Además la indexación de estos documentos, en la mayoría de los casos se realiza 100% manual, lo que expone a la entidad a errores humanos debidos a los altos volúmenes de documentos generados, así como a las múltiples fuentes que los generan; Esto impide que la información histórica contenida en estos documentos sea utilizada eficazmente como soporte en la toma de decisiones de la entidad. Para dar una alternativa de solucion a este problema es necesario construir una base de conocimiento siguiendo la estructura y los lineamientos de datos enlazados, que permitan que esta información relevante pueda ser publicada, consultada y usada como insumo vital en la toma de decisiones al interior de la entidad. Para esto durante el desarrollo de este trabajo se pretende obtener un método para la extracción de información a partir de documentos semiestructurados producidos al interior del Servicio Nacional de Aprendizaje SENA, Este método será plasmado en un prototipo que permitirá extraer la información necesaria mediante cuatro fases que abarcan desde la Extracción de Información hasta la fase de Persistencia de conocimiento, de manera que sea posible inferir la información requerida.Abstract. Now in the Servicio Nacional de Aprendizaje SENA, there are lots of files, which contain textual semi-structured information, making it difficult to perform complex SQL queries about the information contained therein, preventing this information can be actively used inside SENA. Although the company now has an advanced document management system, which is responsible for managing, storing and indexing the documents produced by processes performed inside SENA, the information can be extracted from them is very limited, forcing many times to open the document to observe in detail the contents inside. Moreover indexing of these documents, in most cases 100% manually, which exposes the entity to human error due to high volumes of documents generated, as well as multiple sources that generate performed, this prevents the historical information contained in these documents to be used effectively as a support in the decision making in the organization. To give an alternative solution to this problem is necessary to build a knowledge base following the structure and guidelines linked data, which allow this relevant information can be posted, accessed and used as vital input in decision making inside the entity. For this during the development of this work it is to obtain a method for extracting information from semi-structured documents produced inside SENA, This method is embodied in a prototype which will extract the necessary information through four stages ranging from extraction to the phase information persistence of knowledge, so that it is possible to infer the required informationMaestríaapplication/pdfspaUniversidad Nacional de Colombia Sede Bogotá Facultad de Ingeniería Departamento de Ingeniería de Sistemas e Industrial Ingeniería de SistemasIngeniería de SistemasAbello Diaz, Jhonatan Alejandro (2015) Obtener un método para la extracción de información a partir de documentos semiestructurados producidos al interior del Servicio Nacional de Aprendizaje SENA, permitiendo su publicación, reutilización e intercambio a través de la web semántica. Maestría thesis, Universidad Nacional de Colombia - Sede Bogotá.0 Generalidades / Computer science, information and general works37 Educación / Education62 Ingeniería y operaciones afines / Engineering65 Gerencia y servicios auxiliares / Management and public relationsExtracción de informaciónGestión del conocimientoDatos EnlazadosRDFOntologíaWeb SemánticaSENAInformation ExtractionKnowledge ManagementLinked DataRDFOntologySemantic WebObtener un método para la extracción de información a partir de documentos semiestructurados producidos al interior del Servicio Nacional de Aprendizaje SENA, permitiendo su publicación, reutilización e intercambio a través de la web semánticaTrabajo de grado - Maestríainfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/acceptedVersionTexthttp://purl.org/redcol/resource_type/TMORIGINALjhonatanalejandroabellodiaz.2015.pdfapplication/pdf4254977https://repositorio.unal.edu.co/bitstream/unal/55743/1/jhonatanalejandroabellodiaz.2015.pdff8633a911f1e505ec4754099eb6636ffMD51THUMBNAILjhonatanalejandroabellodiaz.2015.pdf.jpgjhonatanalejandroabellodiaz.2015.pdf.jpgGenerated Thumbnailimage/jpeg6543https://repositorio.unal.edu.co/bitstream/unal/55743/2/jhonatanalejandroabellodiaz.2015.pdf.jpg260d2b2b8565ed27970813c771ee4c28MD52unal/55743oai:repositorio.unal.edu.co:unal/557432024-03-19 23:09:17.435Repositorio Institucional Universidad Nacional de Colombiarepositorio_nal@unal.edu.co