Algoritmo memético para la identificación de partes del discurso

Este trabajo propone en primera instancia, un algoritmo memético, el cual es un tipo de algoritmo metaheurístico, que adicional al balance que hace entre búsqueda global y búsqueda local para encontrar soluciones, incluye conocimiento del problema. El algoritmo propuesto considera dos casos principa...

Full description

Autores:
Sierra Martínez, Luz Marina
Tipo de recurso:
Doctoral thesis
Fecha de publicación:
2018
Institución:
Universidad del Cauca
Repositorio:
Repositorio Unicauca
Idioma:
spa
OAI Identifier:
oai:repositorio.unicauca.edu.co:123456789/1256
Acceso en línea:
http://repositorio.unicauca.edu.co:8080/xmlui/handle/123456789/1256
Palabra clave:
Part-Of-Speech Tagging
Tagger
Memetic algorithm for tagging
Tagset
Annotated corpus
Tagged corpus
Identificador de partes del discurso
Etiquetador
algoritmo memético para etiquetado
Conjunto de etiquetas
Corpus etiquetado
Rights
License
https://creativecommons.org/licenses/by-nc-nd/4.0/
id REPOCAUCA2_db7f9212317ed4cc383f389e5108d343
oai_identifier_str oai:repositorio.unicauca.edu.co:123456789/1256
network_acronym_str REPOCAUCA2
network_name_str Repositorio Unicauca
repository_id_str
dc.title.spa.fl_str_mv Algoritmo memético para la identificación de partes del discurso
title Algoritmo memético para la identificación de partes del discurso
spellingShingle Algoritmo memético para la identificación de partes del discurso
Part-Of-Speech Tagging
Tagger
Memetic algorithm for tagging
Tagset
Annotated corpus
Tagged corpus
Identificador de partes del discurso
Etiquetador
algoritmo memético para etiquetado
Conjunto de etiquetas
Corpus etiquetado
title_short Algoritmo memético para la identificación de partes del discurso
title_full Algoritmo memético para la identificación de partes del discurso
title_fullStr Algoritmo memético para la identificación de partes del discurso
title_full_unstemmed Algoritmo memético para la identificación de partes del discurso
title_sort Algoritmo memético para la identificación de partes del discurso
dc.creator.fl_str_mv Sierra Martínez, Luz Marina
dc.contributor.author.none.fl_str_mv Sierra Martínez, Luz Marina
dc.subject.eng.fl_str_mv Part-Of-Speech Tagging
Tagger
Memetic algorithm for tagging
Tagset
Annotated corpus
Tagged corpus
topic Part-Of-Speech Tagging
Tagger
Memetic algorithm for tagging
Tagset
Annotated corpus
Tagged corpus
Identificador de partes del discurso
Etiquetador
algoritmo memético para etiquetado
Conjunto de etiquetas
Corpus etiquetado
dc.subject.spa.fl_str_mv Identificador de partes del discurso
Etiquetador
algoritmo memético para etiquetado
Conjunto de etiquetas
Corpus etiquetado
description Este trabajo propone en primera instancia, un algoritmo memético, el cual es un tipo de algoritmo metaheurístico, que adicional al balance que hace entre búsqueda global y búsqueda local para encontrar soluciones, incluye conocimiento del problema. El algoritmo propuesto considera dos casos principales: Una lengua tradicional, como el inglés, y una no tradicional, como el nasa yuwe. En segunda instancia, buscando que el algoritmo propuesto para etiquetado pueda tener aplicaciones futuras en contextos locales, como es el caso de la revitalización de lenguas en peligro de exitinción, caso de la lengua nasa yuwe, la cual se beneficiará al obtener un POST, que puede ser utilizado en el desarrollo de objetos de aprendizaje complejos u otras utilidades. Por lo tanto, para complementar la propuesta se construyó el primer corpus etiquetado para nasa yuwe, que junto con el algoritmo memético de etiquetado propuesto se convierten en el primer acercamiento hacia aplicaciones de procesamiento de lenguaje natural sobre esta lengua. Sumado a lo anterior, se definieron una serie de experimentos para los dos casos, que muestran el desempeño del algoritmo propuesto en contraste con otros recomendados por la literatura. El desarrollo de esta tesis estuvo enmarcado en la metodología Patrón de Investigación Iterativo, la cual permitió, en primera instancia, realizar un estudio exhaustivo sobre el estado del arte de las técnicas de construcción de POST, conjuntos de etiquetado y corpus utilizados, tanto para lenguas tradicionales como no tradicionales. En segunda instancia, a partir del estudio de los trabajos revisados y centrando el interés de la investigación en POST, que utilizan algoritmos metaheurísticos se seleccionó el algoritmo metaheurístico Global Best Harmony Search como base para elaborar la propuesta del algoritmo de etiquetado. En tercera instancia, también a partir de la revisión de literatura realizada, fue posible obtener el corpus a utilizar para el idioma inglés, el conjunto de etiquetado universal, los aspectos relevantes a tener en cuentan en la construcción del corpus etiquetado de nasa yuwe, así como la selección y construcción de la línea base y la ejecución de los experimentos realizados sobre los corpus.
publishDate 2018
dc.date.issued.none.fl_str_mv 2018-05
dc.date.accessioned.none.fl_str_mv 2019-10-30T19:31:46Z
dc.date.available.none.fl_str_mv 2019-10-30T19:31:46Z
dc.type.spa.fl_str_mv Tesis doctorado
dc.type.coarversion.fl_str_mv http://purl.org/coar/version/c_970fb48d4fbd8a85
dc.type.driver.none.fl_str_mv info:eu-repo/semantics/doctoralThesis
dc.type.coar.none.fl_str_mv http://purl.org/coar/resource_type/c_db06
format http://purl.org/coar/resource_type/c_db06
dc.identifier.uri.none.fl_str_mv http://repositorio.unicauca.edu.co:8080/xmlui/handle/123456789/1256
dc.identifier.instname.none.fl_str_mv
dc.identifier.reponame.none.fl_str_mv
dc.identifier.repourl.none.fl_str_mv
url http://repositorio.unicauca.edu.co:8080/xmlui/handle/123456789/1256
identifier_str_mv
dc.language.iso.spa.fl_str_mv spa
language spa
dc.rights.coar.fl_str_mv http://purl.org/coar/access_right/c_abf2
dc.rights.uri.none.fl_str_mv https://creativecommons.org/licenses/by-nc-nd/4.0/
dc.rights.creativecommons.none.fl_str_mv https://creativecommons.org/licenses/by-nc-nd/4.0/
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-nd/4.0/
http://purl.org/coar/access_right/c_abf2
dc.publisher.spa.fl_str_mv Universidad del Cauca
dc.publisher.faculty.spa.fl_str_mv Facultad de Ingeniería Electrónica y Telecomunicaciones
dc.publisher.program.spa.fl_str_mv Doctorado en Ingeniería Telemática
institution Universidad del Cauca
bitstream.url.fl_str_mv http://repositorio.unicauca.edu.co/bitstream/123456789/1256/1/Algoritmo%20Mem%c3%a9tico%20para%20la%20Identificaci%c3%b3n%20de%20Partes%20del%20Discurso.pdf
http://repositorio.unicauca.edu.co/bitstream/123456789/1256/2/license.txt
bitstream.checksum.fl_str_mv 920d77ca64487b4278b5972ab03f3eaf
8a4605be74aa9ea9d79846c1fba20a33
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Dspace - Universidad del Cauca
repository.mail.fl_str_mv biblios@unicauca.edu.co
_version_ 1808396268503826432
spelling Sierra Martínez, Luz Marina2019-10-30T19:31:46Z2019-10-30T19:31:46Z2018-05http://repositorio.unicauca.edu.co:8080/xmlui/handle/123456789/1256Este trabajo propone en primera instancia, un algoritmo memético, el cual es un tipo de algoritmo metaheurístico, que adicional al balance que hace entre búsqueda global y búsqueda local para encontrar soluciones, incluye conocimiento del problema. El algoritmo propuesto considera dos casos principales: Una lengua tradicional, como el inglés, y una no tradicional, como el nasa yuwe. En segunda instancia, buscando que el algoritmo propuesto para etiquetado pueda tener aplicaciones futuras en contextos locales, como es el caso de la revitalización de lenguas en peligro de exitinción, caso de la lengua nasa yuwe, la cual se beneficiará al obtener un POST, que puede ser utilizado en el desarrollo de objetos de aprendizaje complejos u otras utilidades. Por lo tanto, para complementar la propuesta se construyó el primer corpus etiquetado para nasa yuwe, que junto con el algoritmo memético de etiquetado propuesto se convierten en el primer acercamiento hacia aplicaciones de procesamiento de lenguaje natural sobre esta lengua. Sumado a lo anterior, se definieron una serie de experimentos para los dos casos, que muestran el desempeño del algoritmo propuesto en contraste con otros recomendados por la literatura. El desarrollo de esta tesis estuvo enmarcado en la metodología Patrón de Investigación Iterativo, la cual permitió, en primera instancia, realizar un estudio exhaustivo sobre el estado del arte de las técnicas de construcción de POST, conjuntos de etiquetado y corpus utilizados, tanto para lenguas tradicionales como no tradicionales. En segunda instancia, a partir del estudio de los trabajos revisados y centrando el interés de la investigación en POST, que utilizan algoritmos metaheurísticos se seleccionó el algoritmo metaheurístico Global Best Harmony Search como base para elaborar la propuesta del algoritmo de etiquetado. En tercera instancia, también a partir de la revisión de literatura realizada, fue posible obtener el corpus a utilizar para el idioma inglés, el conjunto de etiquetado universal, los aspectos relevantes a tener en cuentan en la construcción del corpus etiquetado de nasa yuwe, así como la selección y construcción de la línea base y la ejecución de los experimentos realizados sobre los corpus.This thesis thus first proposes a memetic algorithm, a type of metaheuristic algorithm, which in addition to the balance it creates between global and local search for finding solutions, includes knowledge of the problem. The proposed algorithm considers two main cases: a traditional language, such as English, and a non-traditional one, such as Nasa Yuwe. Secondly, the aim is that the tagging algorithm proposed will have applications in local contexts - such as is the case with revitalization of languages in danger of extinction. This is the situation with Nasa Yuwe, which will benefit from obtaining a POST that can be used in developing complex learning objects or other utilities. Therefore, to complement the proposal, the first annotated corpus for Nasa Yuwe was built, which together with the proposed tagging memetic algorithm becomes the first approach to natural language processing applications in this language. Furthermore, a series of experiments was defined for the two cases, which shows the performance of the proposed algorithm in contrast to others recommended by the literature. This thesis was framed within the Iterative Research Pattern methodology. This allowed an initial exhaustive study on the state of the art of POST construction techniques, tagging sets and corpus used, for both traditional and non-traditional languages. Based on the work reviewed, with the focus on POST research using metaheuristic algorithms, the Global Best Harmony Search metaheuristic algorithm was then selected as the basis for carrying out the tagging algorithm proposal. Also based on the literature review, it was possible to obtain the corpus to be used for the English language, the universal tagging set, the relevant aspects to be taken into account in building the Nasa viii Yuwe tagging corpus, as well as selection and construction of the baseline and execution of the experiments carried out on the corpus.spaUniversidad del CaucaFacultad de Ingeniería Electrónica y TelecomunicacionesDoctorado en Ingeniería Telemáticahttps://creativecommons.org/licenses/by-nc-nd/4.0/https://creativecommons.org/licenses/by-nc-nd/4.0/http://purl.org/coar/access_right/c_abf2Part-Of-Speech TaggingTaggerMemetic algorithm for taggingTagsetAnnotated corpusTagged corpusIdentificador de partes del discursoEtiquetadoralgoritmo memético para etiquetadoConjunto de etiquetasCorpus etiquetadoAlgoritmo memético para la identificación de partes del discursoTesis doctoradoinfo:eu-repo/semantics/doctoralThesishttp://purl.org/coar/resource_type/c_db06http://purl.org/coar/version/c_970fb48d4fbd8a85http://purl.org/coar/version/c_970fb48d4fbd8a85ORIGINALAlgoritmo Memético para la Identificación de Partes del Discurso.pdfAlgoritmo Memético para la Identificación de Partes del Discurso.pdfapplication/pdf2653003http://repositorio.unicauca.edu.co/bitstream/123456789/1256/1/Algoritmo%20Mem%c3%a9tico%20para%20la%20Identificaci%c3%b3n%20de%20Partes%20del%20Discurso.pdf920d77ca64487b4278b5972ab03f3eafMD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81748http://repositorio.unicauca.edu.co/bitstream/123456789/1256/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD52123456789/1256oai:repositorio.unicauca.edu.co:123456789/12562021-05-28 12:13:22.91Dspace - Universidad del Caucabiblios@unicauca.edu.coTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=