Extracción de instancias de una clase desde textos en lenguaje natural independientes del dominio de aplicación

Las ontologías en computación se incluyen en el mundo de la inteligencia artificial y constituyen representaciones formales de un área de conocimiento o dominio. Las ontologías permiten modelar el conocimiento mediante una estructura de conceptos relacionados, lo cual proporciona un vocabulario comú...

Full description

Autores:
Blandón Andrade, Juan Carlos
Tipo de recurso:
Doctoral thesis
Fecha de publicación:
2017
Institución:
Universidad Nacional de Colombia
Repositorio:
Universidad Nacional de Colombia
Idioma:
spa
OAI Identifier:
oai:repositorio.unal.edu.co:unal/58998
Acceso en línea:
https://repositorio.unal.edu.co/handle/unal/58998
http://bdigital.unal.edu.co/56139/
Palabra clave:
62 Ingeniería y operaciones afines / Engineering
Web semántica
Ontologías
Población automática de ontologías
Procesamiento de lenguaje natural
Extracción de información
Patrones GATE-JAPE
Semantic web
Ontologies
Automatic ontology population
Natural language processing
information extraction
Gate-Jape patterns
Rights
openAccess
License
Atribución-NoComercial 4.0 Internacional
id UNACIONAL2_81c0bc47ffecfb17ccf999bb4b3177c5
oai_identifier_str oai:repositorio.unal.edu.co:unal/58998
network_acronym_str UNACIONAL2
network_name_str Universidad Nacional de Colombia
repository_id_str
dc.title.spa.fl_str_mv Extracción de instancias de una clase desde textos en lenguaje natural independientes del dominio de aplicación
title Extracción de instancias de una clase desde textos en lenguaje natural independientes del dominio de aplicación
spellingShingle Extracción de instancias de una clase desde textos en lenguaje natural independientes del dominio de aplicación
62 Ingeniería y operaciones afines / Engineering
Web semántica
Ontologías
Población automática de ontologías
Procesamiento de lenguaje natural
Extracción de información
Patrones GATE-JAPE
Semantic web
Ontologies
Automatic ontology population
Natural language processing
information extraction
Gate-Jape patterns
title_short Extracción de instancias de una clase desde textos en lenguaje natural independientes del dominio de aplicación
title_full Extracción de instancias de una clase desde textos en lenguaje natural independientes del dominio de aplicación
title_fullStr Extracción de instancias de una clase desde textos en lenguaje natural independientes del dominio de aplicación
title_full_unstemmed Extracción de instancias de una clase desde textos en lenguaje natural independientes del dominio de aplicación
title_sort Extracción de instancias de una clase desde textos en lenguaje natural independientes del dominio de aplicación
dc.creator.fl_str_mv Blandón Andrade, Juan Carlos
dc.contributor.author.spa.fl_str_mv Blandón Andrade, Juan Carlos
dc.contributor.spa.fl_str_mv Zapata Jaramillo, Carlos Mario
dc.subject.ddc.spa.fl_str_mv 62 Ingeniería y operaciones afines / Engineering
topic 62 Ingeniería y operaciones afines / Engineering
Web semántica
Ontologías
Población automática de ontologías
Procesamiento de lenguaje natural
Extracción de información
Patrones GATE-JAPE
Semantic web
Ontologies
Automatic ontology population
Natural language processing
information extraction
Gate-Jape patterns
dc.subject.proposal.spa.fl_str_mv Web semántica
Ontologías
Población automática de ontologías
Procesamiento de lenguaje natural
Extracción de información
Patrones GATE-JAPE
Semantic web
Ontologies
Automatic ontology population
Natural language processing
information extraction
Gate-Jape patterns
description Las ontologías en computación se incluyen en el mundo de la inteligencia artificial y constituyen representaciones formales de un área de conocimiento o dominio. Las ontologías permiten modelar el conocimiento mediante una estructura de conceptos relacionados, lo cual proporciona un vocabulario común y que es de vital importancia para compartir información. La ingeniería ontológica es la disciplina que se encarga del estudio y construcción de herramientas para agilizar el proceso de creación de ontologías desde el lenguaje natural y tiene tres etapas cruciales: aprendizaje de ontologías (Ontology Learning), población de ontologías (Ontology Population) y enriquecimiento de ontologías (Ontology Enrichment). La literatura especializada muestra gran interés por las tres etapas y, para desarrollarlas, utiliza distintos métodos como estadística, extracción de información, procesamiento de lenguaje natural, aprendizaje de máquina (Machine Learning) y combinaciones entre ellos. Sin embargo, algunos problemas subsisten, tales como la dependencia del dominio de aplicación, la carencia de métodos completamente automáticos y la carencia de identificación de instancias de atributos. En consecuencia, el problema que se aborda en esta Tesis Doctoral es la extracción automática de instancias desde el lenguaje natural, sin importar el dominio de aplicación, con el fin de contribuir con el proceso de población de ontologías. En esta Tesis Doctoral se propone un método computacional que utiliza técnicas de extracción de información y procesamiento de lenguaje natural para extraer instancias de una clase y generar como resultado un archivo con una ontología completa en formato OWL, utilizando la herramienta GATE (General Architecture for Text Engineering). Los resultados son prometedores, pues se logra crear ontologías desde cero automáticamente, sin importar el dominio de aplicación y con buenos niveles de precision, recall y F-measure.
publishDate 2017
dc.date.issued.spa.fl_str_mv 2017-02
dc.date.accessioned.spa.fl_str_mv 2019-07-02T15:11:03Z
dc.date.available.spa.fl_str_mv 2019-07-02T15:11:03Z
dc.type.spa.fl_str_mv Trabajo de grado - Doctorado
dc.type.driver.spa.fl_str_mv info:eu-repo/semantics/doctoralThesis
dc.type.version.spa.fl_str_mv info:eu-repo/semantics/acceptedVersion
dc.type.coar.spa.fl_str_mv http://purl.org/coar/resource_type/c_db06
dc.type.content.spa.fl_str_mv Text
dc.type.redcol.spa.fl_str_mv http://purl.org/redcol/resource_type/TD
format http://purl.org/coar/resource_type/c_db06
status_str acceptedVersion
dc.identifier.uri.none.fl_str_mv https://repositorio.unal.edu.co/handle/unal/58998
dc.identifier.eprints.spa.fl_str_mv http://bdigital.unal.edu.co/56139/
url https://repositorio.unal.edu.co/handle/unal/58998
http://bdigital.unal.edu.co/56139/
dc.language.iso.spa.fl_str_mv spa
language spa
dc.relation.ispartof.spa.fl_str_mv Universidad Nacional de Colombia Sede Medellín Facultad de Minas Escuela de Sistemas
Escuela de Sistemas
dc.relation.references.spa.fl_str_mv Blandón Andrade, Juan Carlos (2017) Extracción de instancias de una clase desde textos en lenguaje natural independientes del dominio de aplicación. Doctorado thesis, Universidad Nacional de Colombia - Sede Medellín.
dc.rights.spa.fl_str_mv Derechos reservados - Universidad Nacional de Colombia
dc.rights.coar.fl_str_mv http://purl.org/coar/access_right/c_abf2
dc.rights.license.spa.fl_str_mv Atribución-NoComercial 4.0 Internacional
dc.rights.uri.spa.fl_str_mv http://creativecommons.org/licenses/by-nc/4.0/
dc.rights.accessrights.spa.fl_str_mv info:eu-repo/semantics/openAccess
rights_invalid_str_mv Atribución-NoComercial 4.0 Internacional
Derechos reservados - Universidad Nacional de Colombia
http://creativecommons.org/licenses/by-nc/4.0/
http://purl.org/coar/access_right/c_abf2
eu_rights_str_mv openAccess
dc.format.mimetype.spa.fl_str_mv application/pdf
institution Universidad Nacional de Colombia
bitstream.url.fl_str_mv https://repositorio.unal.edu.co/bitstream/unal/58998/1/5283875.2017.pdf
https://repositorio.unal.edu.co/bitstream/unal/58998/2/5283875.2017.pdf.jpg
bitstream.checksum.fl_str_mv dff3812a9c8e24f4eefff90ed2363e48
0b7d010610194fa9327238f79454b9ad
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositorio Institucional Universidad Nacional de Colombia
repository.mail.fl_str_mv repositorio_nal@unal.edu.co
_version_ 1814090102539812864
spelling Atribución-NoComercial 4.0 InternacionalDerechos reservados - Universidad Nacional de Colombiahttp://creativecommons.org/licenses/by-nc/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Zapata Jaramillo, Carlos MarioBlandón Andrade, Juan Carlos280a9fbe-d65e-439f-a496-07e3f5101fa83002019-07-02T15:11:03Z2019-07-02T15:11:03Z2017-02https://repositorio.unal.edu.co/handle/unal/58998http://bdigital.unal.edu.co/56139/Las ontologías en computación se incluyen en el mundo de la inteligencia artificial y constituyen representaciones formales de un área de conocimiento o dominio. Las ontologías permiten modelar el conocimiento mediante una estructura de conceptos relacionados, lo cual proporciona un vocabulario común y que es de vital importancia para compartir información. La ingeniería ontológica es la disciplina que se encarga del estudio y construcción de herramientas para agilizar el proceso de creación de ontologías desde el lenguaje natural y tiene tres etapas cruciales: aprendizaje de ontologías (Ontology Learning), población de ontologías (Ontology Population) y enriquecimiento de ontologías (Ontology Enrichment). La literatura especializada muestra gran interés por las tres etapas y, para desarrollarlas, utiliza distintos métodos como estadística, extracción de información, procesamiento de lenguaje natural, aprendizaje de máquina (Machine Learning) y combinaciones entre ellos. Sin embargo, algunos problemas subsisten, tales como la dependencia del dominio de aplicación, la carencia de métodos completamente automáticos y la carencia de identificación de instancias de atributos. En consecuencia, el problema que se aborda en esta Tesis Doctoral es la extracción automática de instancias desde el lenguaje natural, sin importar el dominio de aplicación, con el fin de contribuir con el proceso de población de ontologías. En esta Tesis Doctoral se propone un método computacional que utiliza técnicas de extracción de información y procesamiento de lenguaje natural para extraer instancias de una clase y generar como resultado un archivo con una ontología completa en formato OWL, utilizando la herramienta GATE (General Architecture for Text Engineering). Los resultados son prometedores, pues se logra crear ontologías desde cero automáticamente, sin importar el dominio de aplicación y con buenos niveles de precision, recall y F-measure.Abstract: Ontologies in computation belong to artificial intelligence. Ontologies are formal representations of a knowledge area or domain. Ontologies can be used for modeling knowledge by using a structure of related concepts. Such structure provides a common vocabulary and it is crucial for sharing information. Ontological engineering is a discipline for studying and constructing tools for improving the process of ontology creation from natural language. Such a process has three crucial stages: ontology learning, ontology population, and ontology enrichment. The state of the art shows great concern with the three stages, which are developed by using methods like statistics, information extraction, natural language processing, machine learning, and combinations of them. However, some problems still remain—e.g., dependence on the application domain, lack of automation, and lack of attribute instance identification. Consequently, in this Ph.D. Thesis we address the problem of automated extraction of instances from natural language—regardless of the application domain—in order to contribute to the process of ontology population. In this Ph.D. Thesis we propose a computational method by using information extraction and natural language processing technologies in order to extract instances of a class and to generate as an output a file with a complete ontology in OWL format. We use the GATE (General Architecture for Text Engineering) tool for implementing the method. The results are promising, since we automatically create domain-independent ontologies from scratch. Also, our method exhibits satisfactory levels of precision, recall and F-measureDoctoradoapplication/pdfspaUniversidad Nacional de Colombia Sede Medellín Facultad de Minas Escuela de SistemasEscuela de SistemasBlandón Andrade, Juan Carlos (2017) Extracción de instancias de una clase desde textos en lenguaje natural independientes del dominio de aplicación. Doctorado thesis, Universidad Nacional de Colombia - Sede Medellín.62 Ingeniería y operaciones afines / EngineeringWeb semánticaOntologíasPoblación automática de ontologíasProcesamiento de lenguaje naturalExtracción de informaciónPatrones GATE-JAPESemantic webOntologiesAutomatic ontology populationNatural language processinginformation extractionGate-Jape patternsExtracción de instancias de una clase desde textos en lenguaje natural independientes del dominio de aplicaciónTrabajo de grado - Doctoradoinfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/acceptedVersionhttp://purl.org/coar/resource_type/c_db06Texthttp://purl.org/redcol/resource_type/TDORIGINAL5283875.2017.pdfTesis de Doctorado en Ingeniería - Sistemasapplication/pdf7969573https://repositorio.unal.edu.co/bitstream/unal/58998/1/5283875.2017.pdfdff3812a9c8e24f4eefff90ed2363e48MD51THUMBNAIL5283875.2017.pdf.jpg5283875.2017.pdf.jpgGenerated Thumbnailimage/jpeg4878https://repositorio.unal.edu.co/bitstream/unal/58998/2/5283875.2017.pdf.jpg0b7d010610194fa9327238f79454b9adMD52unal/58998oai:repositorio.unal.edu.co:unal/589982024-04-05 23:41:51.673Repositorio Institucional Universidad Nacional de Colombiarepositorio_nal@unal.edu.co