Algoritmo memético para la identificación de partes del discurso
Este trabajo propone en primera instancia, un algoritmo memético, el cual es un tipo de algoritmo metaheurístico, que adicional al balance que hace entre búsqueda global y búsqueda local para encontrar soluciones, incluye conocimiento del problema. El algoritmo propuesto considera dos casos principa...
- Autores:
-
Sierra Martínez, Luz Marina
- Tipo de recurso:
- Doctoral thesis
- Fecha de publicación:
- 2018
- Institución:
- Universidad del Cauca
- Repositorio:
- Repositorio Unicauca
- Idioma:
- spa
- OAI Identifier:
- oai:repositorio.unicauca.edu.co:123456789/1256
- Acceso en línea:
- http://repositorio.unicauca.edu.co:8080/xmlui/handle/123456789/1256
- Palabra clave:
- Part-Of-Speech Tagging
Tagger
Memetic algorithm for tagging
Tagset
Annotated corpus
Tagged corpus
Identificador de partes del discurso
Etiquetador
algoritmo memético para etiquetado
Conjunto de etiquetas
Corpus etiquetado
- Rights
- License
- https://creativecommons.org/licenses/by-nc-nd/4.0/
id |
REPOCAUCA2_db7f9212317ed4cc383f389e5108d343 |
---|---|
oai_identifier_str |
oai:repositorio.unicauca.edu.co:123456789/1256 |
network_acronym_str |
REPOCAUCA2 |
network_name_str |
Repositorio Unicauca |
repository_id_str |
|
dc.title.spa.fl_str_mv |
Algoritmo memético para la identificación de partes del discurso |
title |
Algoritmo memético para la identificación de partes del discurso |
spellingShingle |
Algoritmo memético para la identificación de partes del discurso Part-Of-Speech Tagging Tagger Memetic algorithm for tagging Tagset Annotated corpus Tagged corpus Identificador de partes del discurso Etiquetador algoritmo memético para etiquetado Conjunto de etiquetas Corpus etiquetado |
title_short |
Algoritmo memético para la identificación de partes del discurso |
title_full |
Algoritmo memético para la identificación de partes del discurso |
title_fullStr |
Algoritmo memético para la identificación de partes del discurso |
title_full_unstemmed |
Algoritmo memético para la identificación de partes del discurso |
title_sort |
Algoritmo memético para la identificación de partes del discurso |
dc.creator.fl_str_mv |
Sierra Martínez, Luz Marina |
dc.contributor.author.none.fl_str_mv |
Sierra Martínez, Luz Marina |
dc.subject.eng.fl_str_mv |
Part-Of-Speech Tagging Tagger Memetic algorithm for tagging Tagset Annotated corpus Tagged corpus |
topic |
Part-Of-Speech Tagging Tagger Memetic algorithm for tagging Tagset Annotated corpus Tagged corpus Identificador de partes del discurso Etiquetador algoritmo memético para etiquetado Conjunto de etiquetas Corpus etiquetado |
dc.subject.spa.fl_str_mv |
Identificador de partes del discurso Etiquetador algoritmo memético para etiquetado Conjunto de etiquetas Corpus etiquetado |
description |
Este trabajo propone en primera instancia, un algoritmo memético, el cual es un tipo de algoritmo metaheurístico, que adicional al balance que hace entre búsqueda global y búsqueda local para encontrar soluciones, incluye conocimiento del problema. El algoritmo propuesto considera dos casos principales: Una lengua tradicional, como el inglés, y una no tradicional, como el nasa yuwe. En segunda instancia, buscando que el algoritmo propuesto para etiquetado pueda tener aplicaciones futuras en contextos locales, como es el caso de la revitalización de lenguas en peligro de exitinción, caso de la lengua nasa yuwe, la cual se beneficiará al obtener un POST, que puede ser utilizado en el desarrollo de objetos de aprendizaje complejos u otras utilidades. Por lo tanto, para complementar la propuesta se construyó el primer corpus etiquetado para nasa yuwe, que junto con el algoritmo memético de etiquetado propuesto se convierten en el primer acercamiento hacia aplicaciones de procesamiento de lenguaje natural sobre esta lengua. Sumado a lo anterior, se definieron una serie de experimentos para los dos casos, que muestran el desempeño del algoritmo propuesto en contraste con otros recomendados por la literatura. El desarrollo de esta tesis estuvo enmarcado en la metodología Patrón de Investigación Iterativo, la cual permitió, en primera instancia, realizar un estudio exhaustivo sobre el estado del arte de las técnicas de construcción de POST, conjuntos de etiquetado y corpus utilizados, tanto para lenguas tradicionales como no tradicionales. En segunda instancia, a partir del estudio de los trabajos revisados y centrando el interés de la investigación en POST, que utilizan algoritmos metaheurísticos se seleccionó el algoritmo metaheurístico Global Best Harmony Search como base para elaborar la propuesta del algoritmo de etiquetado. En tercera instancia, también a partir de la revisión de literatura realizada, fue posible obtener el corpus a utilizar para el idioma inglés, el conjunto de etiquetado universal, los aspectos relevantes a tener en cuentan en la construcción del corpus etiquetado de nasa yuwe, así como la selección y construcción de la línea base y la ejecución de los experimentos realizados sobre los corpus. |
publishDate |
2018 |
dc.date.issued.none.fl_str_mv |
2018-05 |
dc.date.accessioned.none.fl_str_mv |
2019-10-30T19:31:46Z |
dc.date.available.none.fl_str_mv |
2019-10-30T19:31:46Z |
dc.type.spa.fl_str_mv |
Tesis doctorado |
dc.type.coarversion.fl_str_mv |
http://purl.org/coar/version/c_970fb48d4fbd8a85 |
dc.type.driver.none.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
dc.type.coar.none.fl_str_mv |
http://purl.org/coar/resource_type/c_db06 |
format |
http://purl.org/coar/resource_type/c_db06 |
dc.identifier.uri.none.fl_str_mv |
http://repositorio.unicauca.edu.co:8080/xmlui/handle/123456789/1256 |
dc.identifier.instname.none.fl_str_mv |
|
dc.identifier.reponame.none.fl_str_mv |
|
dc.identifier.repourl.none.fl_str_mv |
|
url |
http://repositorio.unicauca.edu.co:8080/xmlui/handle/123456789/1256 |
identifier_str_mv |
|
dc.language.iso.spa.fl_str_mv |
spa |
language |
spa |
dc.rights.coar.fl_str_mv |
http://purl.org/coar/access_right/c_abf2 |
dc.rights.uri.none.fl_str_mv |
https://creativecommons.org/licenses/by-nc-nd/4.0/ |
dc.rights.creativecommons.none.fl_str_mv |
https://creativecommons.org/licenses/by-nc-nd/4.0/ |
rights_invalid_str_mv |
https://creativecommons.org/licenses/by-nc-nd/4.0/ http://purl.org/coar/access_right/c_abf2 |
dc.publisher.spa.fl_str_mv |
Universidad del Cauca |
dc.publisher.faculty.spa.fl_str_mv |
Facultad de Ingeniería Electrónica y Telecomunicaciones |
dc.publisher.program.spa.fl_str_mv |
Doctorado en Ingeniería Telemática |
institution |
Universidad del Cauca |
bitstream.url.fl_str_mv |
http://repositorio.unicauca.edu.co/bitstream/123456789/1256/1/Algoritmo%20Mem%c3%a9tico%20para%20la%20Identificaci%c3%b3n%20de%20Partes%20del%20Discurso.pdf http://repositorio.unicauca.edu.co/bitstream/123456789/1256/2/license.txt |
bitstream.checksum.fl_str_mv |
920d77ca64487b4278b5972ab03f3eaf 8a4605be74aa9ea9d79846c1fba20a33 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Dspace - Universidad del Cauca |
repository.mail.fl_str_mv |
biblios@unicauca.edu.co |
_version_ |
1808396268503826432 |
spelling |
Sierra Martínez, Luz Marina2019-10-30T19:31:46Z2019-10-30T19:31:46Z2018-05http://repositorio.unicauca.edu.co:8080/xmlui/handle/123456789/1256Este trabajo propone en primera instancia, un algoritmo memético, el cual es un tipo de algoritmo metaheurístico, que adicional al balance que hace entre búsqueda global y búsqueda local para encontrar soluciones, incluye conocimiento del problema. El algoritmo propuesto considera dos casos principales: Una lengua tradicional, como el inglés, y una no tradicional, como el nasa yuwe. En segunda instancia, buscando que el algoritmo propuesto para etiquetado pueda tener aplicaciones futuras en contextos locales, como es el caso de la revitalización de lenguas en peligro de exitinción, caso de la lengua nasa yuwe, la cual se beneficiará al obtener un POST, que puede ser utilizado en el desarrollo de objetos de aprendizaje complejos u otras utilidades. Por lo tanto, para complementar la propuesta se construyó el primer corpus etiquetado para nasa yuwe, que junto con el algoritmo memético de etiquetado propuesto se convierten en el primer acercamiento hacia aplicaciones de procesamiento de lenguaje natural sobre esta lengua. Sumado a lo anterior, se definieron una serie de experimentos para los dos casos, que muestran el desempeño del algoritmo propuesto en contraste con otros recomendados por la literatura. El desarrollo de esta tesis estuvo enmarcado en la metodología Patrón de Investigación Iterativo, la cual permitió, en primera instancia, realizar un estudio exhaustivo sobre el estado del arte de las técnicas de construcción de POST, conjuntos de etiquetado y corpus utilizados, tanto para lenguas tradicionales como no tradicionales. En segunda instancia, a partir del estudio de los trabajos revisados y centrando el interés de la investigación en POST, que utilizan algoritmos metaheurísticos se seleccionó el algoritmo metaheurístico Global Best Harmony Search como base para elaborar la propuesta del algoritmo de etiquetado. En tercera instancia, también a partir de la revisión de literatura realizada, fue posible obtener el corpus a utilizar para el idioma inglés, el conjunto de etiquetado universal, los aspectos relevantes a tener en cuentan en la construcción del corpus etiquetado de nasa yuwe, así como la selección y construcción de la línea base y la ejecución de los experimentos realizados sobre los corpus.This thesis thus first proposes a memetic algorithm, a type of metaheuristic algorithm, which in addition to the balance it creates between global and local search for finding solutions, includes knowledge of the problem. The proposed algorithm considers two main cases: a traditional language, such as English, and a non-traditional one, such as Nasa Yuwe. Secondly, the aim is that the tagging algorithm proposed will have applications in local contexts - such as is the case with revitalization of languages in danger of extinction. This is the situation with Nasa Yuwe, which will benefit from obtaining a POST that can be used in developing complex learning objects or other utilities. Therefore, to complement the proposal, the first annotated corpus for Nasa Yuwe was built, which together with the proposed tagging memetic algorithm becomes the first approach to natural language processing applications in this language. Furthermore, a series of experiments was defined for the two cases, which shows the performance of the proposed algorithm in contrast to others recommended by the literature. This thesis was framed within the Iterative Research Pattern methodology. This allowed an initial exhaustive study on the state of the art of POST construction techniques, tagging sets and corpus used, for both traditional and non-traditional languages. Based on the work reviewed, with the focus on POST research using metaheuristic algorithms, the Global Best Harmony Search metaheuristic algorithm was then selected as the basis for carrying out the tagging algorithm proposal. Also based on the literature review, it was possible to obtain the corpus to be used for the English language, the universal tagging set, the relevant aspects to be taken into account in building the Nasa viii Yuwe tagging corpus, as well as selection and construction of the baseline and execution of the experiments carried out on the corpus.spaUniversidad del CaucaFacultad de Ingeniería Electrónica y TelecomunicacionesDoctorado en Ingeniería Telemáticahttps://creativecommons.org/licenses/by-nc-nd/4.0/https://creativecommons.org/licenses/by-nc-nd/4.0/http://purl.org/coar/access_right/c_abf2Part-Of-Speech TaggingTaggerMemetic algorithm for taggingTagsetAnnotated corpusTagged corpusIdentificador de partes del discursoEtiquetadoralgoritmo memético para etiquetadoConjunto de etiquetasCorpus etiquetadoAlgoritmo memético para la identificación de partes del discursoTesis doctoradoinfo:eu-repo/semantics/doctoralThesishttp://purl.org/coar/resource_type/c_db06http://purl.org/coar/version/c_970fb48d4fbd8a85http://purl.org/coar/version/c_970fb48d4fbd8a85ORIGINALAlgoritmo Memético para la Identificación de Partes del Discurso.pdfAlgoritmo Memético para la Identificación de Partes del Discurso.pdfapplication/pdf2653003http://repositorio.unicauca.edu.co/bitstream/123456789/1256/1/Algoritmo%20Mem%c3%a9tico%20para%20la%20Identificaci%c3%b3n%20de%20Partes%20del%20Discurso.pdf920d77ca64487b4278b5972ab03f3eafMD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81748http://repositorio.unicauca.edu.co/bitstream/123456789/1256/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD52123456789/1256oai:repositorio.unicauca.edu.co:123456789/12562021-05-28 12:13:22.91Dspace - Universidad del Caucabiblios@unicauca.edu.coTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo= |