Algoritmo memético para la identificación de partes del discurso

Este trabajo propone en primera instancia, un algoritmo memético, el cual es un tipo de algoritmo metaheurístico, que adicional al balance que hace entre búsqueda global y búsqueda local para encontrar soluciones, incluye conocimiento del problema. El algoritmo propuesto considera dos casos principa...

Full description

Autores:: Sierra Martínez, Luz Marina

Tipo de recurso:: Doctoral thesis

Fecha de publicación:: 2018

Institución:: Universidad del Cauca

Repositorio:: Repositorio Unicauca

Idioma:: spa

id	REPOCAUCA2_db7f9212317ed4cc383f389e5108d343
oai_identifier_str	oai:repositorio.unicauca.edu.co:123456789/1256
network_acronym_str	REPOCAUCA2
network_name_str	Repositorio Unicauca
repository_id_str
dc.title.spa.fl_str_mv	Algoritmo memético para la identificación de partes del discurso
title	Algoritmo memético para la identificación de partes del discurso
spellingShingle	Algoritmo memético para la identificación de partes del discurso Part-Of-Speech Tagging Tagger Memetic algorithm for tagging Tagset Annotated corpus Tagged corpus Identificador de partes del discurso Etiquetador algoritmo memético para etiquetado Conjunto de etiquetas Corpus etiquetado
title_short	Algoritmo memético para la identificación de partes del discurso
title_full	Algoritmo memético para la identificación de partes del discurso
title_fullStr	Algoritmo memético para la identificación de partes del discurso
title_full_unstemmed	Algoritmo memético para la identificación de partes del discurso
title_sort	Algoritmo memético para la identificación de partes del discurso
dc.creator.fl_str_mv	Sierra Martínez, Luz Marina
dc.contributor.author.none.fl_str_mv	Sierra Martínez, Luz Marina
dc.subject.eng.fl_str_mv	Part-Of-Speech Tagging Tagger Memetic algorithm for tagging Tagset Annotated corpus Tagged corpus
topic	Part-Of-Speech Tagging Tagger Memetic algorithm for tagging Tagset Annotated corpus Tagged corpus Identificador de partes del discurso Etiquetador algoritmo memético para etiquetado Conjunto de etiquetas Corpus etiquetado
dc.subject.spa.fl_str_mv	Identificador de partes del discurso Etiquetador algoritmo memético para etiquetado Conjunto de etiquetas Corpus etiquetado
description	Este trabajo propone en primera instancia, un algoritmo memético, el cual es un tipo de algoritmo metaheurístico, que adicional al balance que hace entre búsqueda global y búsqueda local para encontrar soluciones, incluye conocimiento del problema. El algoritmo propuesto considera dos casos principales: Una lengua tradicional, como el inglés, y una no tradicional, como el nasa yuwe. En segunda instancia, buscando que el algoritmo propuesto para etiquetado pueda tener aplicaciones futuras en contextos locales, como es el caso de la revitalización de lenguas en peligro de exitinción, caso de la lengua nasa yuwe, la cual se beneficiará al obtener un POST, que puede ser utilizado en el desarrollo de objetos de aprendizaje complejos u otras utilidades. Por lo tanto, para complementar la propuesta se construyó el primer corpus etiquetado para nasa yuwe, que junto con el algoritmo memético de etiquetado propuesto se convierten en el primer acercamiento hacia aplicaciones de procesamiento de lenguaje natural sobre esta lengua. Sumado a lo anterior, se definieron una serie de experimentos para los dos casos, que muestran el desempeño del algoritmo propuesto en contraste con otros recomendados por la literatura. El desarrollo de esta tesis estuvo enmarcado en la metodología Patrón de Investigación Iterativo, la cual permitió, en primera instancia, realizar un estudio exhaustivo sobre el estado del arte de las técnicas de construcción de POST, conjuntos de etiquetado y corpus utilizados, tanto para lenguas tradicionales como no tradicionales. En segunda instancia, a partir del estudio de los trabajos revisados y centrando el interés de la investigación en POST, que utilizan algoritmos metaheurísticos se seleccionó el algoritmo metaheurístico Global Best Harmony Search como base para elaborar la propuesta del algoritmo de etiquetado. En tercera instancia, también a partir de la revisión de literatura realizada, fue posible obtener el corpus a utilizar para el idioma inglés, el conjunto de etiquetado universal, los aspectos relevantes a tener en cuentan en la construcción del corpus etiquetado de nasa yuwe, así como la selección y construcción de la línea base y la ejecución de los experimentos realizados sobre los corpus.
publishDate	2018
dc.date.issued.none.fl_str_mv	2018-05
dc.date.accessioned.none.fl_str_mv	2019-10-30T19:31:46Z
dc.date.available.none.fl_str_mv	2019-10-30T19:31:46Z
dc.type.spa.fl_str_mv	Tesis doctorado
dc.type.coarversion.fl_str_mv	http://purl.org/coar/version/c_970fb48d4fbd8a85
dc.type.driver.none.fl_str_mv	info:eu-repo/semantics/doctoralThesis
dc.type.coar.none.fl_str_mv	http://purl.org/coar/resource_type/c_db06
format	http://purl.org/coar/resource_type/c_db06
dc.identifier.uri.none.fl_str_mv	http://repositorio.unicauca.edu.co:8080/xmlui/handle/123456789/1256
dc.identifier.instname.none.fl_str_mv
dc.identifier.reponame.none.fl_str_mv
dc.identifier.repourl.none.fl_str_mv
url	http://repositorio.unicauca.edu.co:8080/xmlui/handle/123456789/1256
identifier_str_mv
dc.language.iso.spa.fl_str_mv	spa
language	spa
dc.rights.coar.fl_str_mv	http://purl.org/coar/access_right/c_abf2
dc.rights.uri.none.fl_str_mv	https://creativecommons.org/licenses/by-nc-nd/4.0/
dc.rights.creativecommons.none.fl_str_mv	https://creativecommons.org/licenses/by-nc-nd/4.0/
rights_invalid_str_mv	https://creativecommons.org/licenses/by-nc-nd/4.0/ http://purl.org/coar/access_right/c_abf2
dc.publisher.spa.fl_str_mv	Universidad del Cauca
dc.publisher.faculty.spa.fl_str_mv	Facultad de Ingeniería Electrónica y Telecomunicaciones
dc.publisher.program.spa.fl_str_mv	Doctorado en Ingeniería Telemática
institution	Universidad del Cauca
bitstream.url.fl_str_mv	http://repositorio.unicauca.edu.co/bitstream/123456789/1256/1/Algoritmo%20Mem%c3%a9tico%20para%20la%20Identificaci%c3%b3n%20de%20Partes%20del%20Discurso.pdf http://repositorio.unicauca.edu.co/bitstream/123456789/1256/2/license.txt
bitstream.checksum.fl_str_mv	920d77ca64487b4278b5972ab03f3eaf 8a4605be74aa9ea9d79846c1fba20a33
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Dspace - Universidad del Cauca
repository.mail.fl_str_mv	biblios@unicauca.edu.co
_version_	1837009661875716096
spelling	Sierra Martínez, Luz Marina2019-10-30T19:31:46Z2019-10-30T19:31:46Z2018-05http://repositorio.unicauca.edu.co:8080/xmlui/handle/123456789/1256Este trabajo propone en primera instancia, un algoritmo memético, el cual es un tipo de algoritmo metaheurístico, que adicional al balance que hace entre búsqueda global y búsqueda local para encontrar soluciones, incluye conocimiento del problema. El algoritmo propuesto considera dos casos principales: Una lengua tradicional, como el inglés, y una no tradicional, como el nasa yuwe. En segunda instancia, buscando que el algoritmo propuesto para etiquetado pueda tener aplicaciones futuras en contextos locales, como es el caso de la revitalización de lenguas en peligro de exitinción, caso de la lengua nasa yuwe, la cual se beneficiará al obtener un POST, que puede ser utilizado en el desarrollo de objetos de aprendizaje complejos u otras utilidades. Por lo tanto, para complementar la propuesta se construyó el primer corpus etiquetado para nasa yuwe, que junto con el algoritmo memético de etiquetado propuesto se convierten en el primer acercamiento hacia aplicaciones de procesamiento de lenguaje natural sobre esta lengua. Sumado a lo anterior, se definieron una serie de experimentos para los dos casos, que muestran el desempeño del algoritmo propuesto en contraste con otros recomendados por la literatura. El desarrollo de esta tesis estuvo enmarcado en la metodología Patrón de Investigación Iterativo, la cual permitió, en primera instancia, realizar un estudio exhaustivo sobre el estado del arte de las técnicas de construcción de POST, conjuntos de etiquetado y corpus utilizados, tanto para lenguas tradicionales como no tradicionales. En segunda instancia, a partir del estudio de los trabajos revisados y centrando el interés de la investigación en POST, que utilizan algoritmos metaheurísticos se seleccionó el algoritmo metaheurístico Global Best Harmony Search como base para elaborar la propuesta del algoritmo de etiquetado. En tercera instancia, también a partir de la revisión de literatura realizada, fue posible obtener el corpus a utilizar para el idioma inglés, el conjunto de etiquetado universal, los aspectos relevantes a tener en cuentan en la construcción del corpus etiquetado de nasa yuwe, así como la selección y construcción de la línea base y la ejecución de los experimentos realizados sobre los corpus.This thesis thus first proposes a memetic algorithm, a type of metaheuristic algorithm, which in addition to the balance it creates between global and local search for finding solutions, includes knowledge of the problem. The proposed algorithm considers two main cases: a traditional language, such as English, and a non-traditional one, such as Nasa Yuwe. Secondly, the aim is that the tagging algorithm proposed will have applications in local contexts - such as is the case with revitalization of languages in danger of extinction. This is the situation with Nasa Yuwe, which will benefit from obtaining a POST that can be used in developing complex learning objects or other utilities. Therefore, to complement the proposal, the first annotated corpus for Nasa Yuwe was built, which together with the proposed tagging memetic algorithm becomes the first approach to natural language processing applications in this language. Furthermore, a series of experiments was defined for the two cases, which shows the performance of the proposed algorithm in contrast to others recommended by the literature. This thesis was framed within the Iterative Research Pattern methodology. This allowed an initial exhaustive study on the state of the art of POST construction techniques, tagging sets and corpus used, for both traditional and non-traditional languages. Based on the work reviewed, with the focus on POST research using metaheuristic algorithms, the Global Best Harmony Search metaheuristic algorithm was then selected as the basis for carrying out the tagging algorithm proposal. Also based on the literature review, it was possible to obtain the corpus to be used for the English language, the universal tagging set, the relevant aspects to be taken into account in building the Nasa viii Yuwe tagging corpus, as well as selection and construction of the baseline and execution of the experiments carried out on the corpus.spaUniversidad del CaucaFacultad de Ingeniería Electrónica y TelecomunicacionesDoctorado en Ingeniería Telemáticahttps://creativecommons.org/licenses/by-nc-nd/4.0/https://creativecommons.org/licenses/by-nc-nd/4.0/http://purl.org/coar/access_right/c_abf2Part-Of-Speech TaggingTaggerMemetic algorithm for taggingTagsetAnnotated corpusTagged corpusIdentificador de partes del discursoEtiquetadoralgoritmo memético para etiquetadoConjunto de etiquetasCorpus etiquetadoAlgoritmo memético para la identificación de partes del discursoTesis doctoradoinfo:eu-repo/semantics/doctoralThesishttp://purl.org/coar/resource_type/c_db06http://purl.org/coar/version/c_970fb48d4fbd8a85http://purl.org/coar/version/c_970fb48d4fbd8a85ORIGINALAlgoritmo Memético para la Identificación de Partes del Discurso.pdfAlgoritmo Memético para la Identificación de Partes del Discurso.pdfapplication/pdf2653003http://repositorio.unicauca.edu.co/bitstream/123456789/1256/1/Algoritmo%20Mem%c3%a9tico%20para%20la%20Identificaci%c3%b3n%20de%20Partes%20del%20Discurso.pdf920d77ca64487b4278b5972ab03f3eafMD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81748http://repositorio.unicauca.edu.co/bitstream/123456789/1256/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD52123456789/1256oai:repositorio.unicauca.edu.co:123456789/12562021-05-28 12:13:22.91Dspace - Universidad del Caucabiblios@unicauca.edu.coTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=

Algoritmo memético para la identificación de partes del discurso

Publicaciones similares