Conditional random fields in text segmentation by language

En este trabajo se propone la utilización de los campos aleatorios condicionales para la resolución de la tarea de segmentación de textos por idioma, considerándola como una tarea de etiquetado de secuencias. La metodología considera que el cambio entre un idioma y otro en los documentos ocurrirá en...

Full description

Autores:
Cabeza Ruiz, Robin
Tipo de recurso:
Article of investigation
Fecha de publicación:
2017
Institución:
Universidad ICESI
Repositorio:
Repositorio ICESI
Idioma:
spa
OAI Identifier:
oai:repository.icesi.edu.co:10906/84479
Acceso en línea:
http://repository.icesi.edu.co/biblioteca_digital/handle/10906/84479
https://doi.org/10.18046/syt.v15i43.2712
Palabra clave:
Segmentación
Herramienta tecnológica
Herramientas computacionales
Textos digitales
Rights
openAccess
License
https://creativecommons.org/licenses/by-nc-nd/4.0/
id ICESI2_0121b68d77870194bf401887837bf02f
oai_identifier_str oai:repository.icesi.edu.co:10906/84479
network_acronym_str ICESI2
network_name_str Repositorio ICESI
repository_id_str
dc.title.spa.fl_str_mv Conditional random fields in text segmentation by language
dc.title.alternative.spa.fl_str_mv Los campos aleatorios condicionales en la segmentación de textos por idioma
title Conditional random fields in text segmentation by language
spellingShingle Conditional random fields in text segmentation by language
Segmentación
Herramienta tecnológica
Herramientas computacionales
Textos digitales
title_short Conditional random fields in text segmentation by language
title_full Conditional random fields in text segmentation by language
title_fullStr Conditional random fields in text segmentation by language
title_full_unstemmed Conditional random fields in text segmentation by language
title_sort Conditional random fields in text segmentation by language
dc.creator.fl_str_mv Cabeza Ruiz, Robin
dc.contributor.author.spa.fl_str_mv Cabeza Ruiz, Robin
dc.subject.spa.fl_str_mv Segmentación
Herramienta tecnológica
Herramientas computacionales
Textos digitales
topic Segmentación
Herramienta tecnológica
Herramientas computacionales
Textos digitales
description En este trabajo se propone la utilización de los campos aleatorios condicionales para la resolución de la tarea de segmentación de textos por idioma, considerándola como una tarea de etiquetado de secuencias. La metodología considera que el cambio entre un idioma y otro en los documentos ocurrirá en cualquier parte del texto y asume que las observaciones en el sistema estarán dadas por las palabras en el texto y que los estados serán los diferentes idiomas. De la investigación se concluye que los campos aleatorios condicionales son una herramienta muy poderosa para la segmentación de textos multilingües.
publishDate 2017
dc.date.issued.none.fl_str_mv 2017-06-12
dc.date.accessioned.none.fl_str_mv 2019-03-04T16:12:06Z
dc.date.available.none.fl_str_mv 2019-03-04T16:12:06Z
dc.type.spa.fl_str_mv info:eu-repo/semantics/article
dc.type.coar.none.fl_str_mv http://purl.org/coar/resource_type/c_2df8fbb1
dc.type.local.spa.fl_str_mv Artículo
dc.type.version.spa.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.coarversion.none.fl_str_mv http://purl.org/coar/version/c_970fb48d4fbd8a85
format http://purl.org/coar/resource_type/c_2df8fbb1
status_str publishedVersion
dc.identifier.issn.none.fl_str_mv 1692-5238
dc.identifier.uri.none.fl_str_mv http://repository.icesi.edu.co/biblioteca_digital/handle/10906/84479
dc.identifier.doi.none.fl_str_mv https://doi.org/10.18046/syt.v15i43.2712
dc.identifier.instname.none.fl_str_mv instname: Universidad Icesi
dc.identifier.reponame.none.fl_str_mv reponame: Biblioteca Digital
dc.identifier.repourl.none.fl_str_mv repourl: https://repository.icesi.edu.co/
identifier_str_mv 1692-5238
instname: Universidad Icesi
reponame: Biblioteca Digital
repourl: https://repository.icesi.edu.co/
url http://repository.icesi.edu.co/biblioteca_digital/handle/10906/84479
https://doi.org/10.18046/syt.v15i43.2712
dc.language.iso.spa.fl_str_mv spa
language spa
dc.relation.ispartof.none.fl_str_mv Sistemas y Telemática, Vol. 15, No. 43 - 2017
dc.rights.uri.none.fl_str_mv https://creativecommons.org/licenses/by-nc-nd/4.0/
dc.rights.accessrights.spa.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.license.none.fl_str_mv Atribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)
dc.rights.coar.none.fl_str_mv http://purl.org/coar/access_right/c_abf2
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-nd/4.0/
Atribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)
http://purl.org/coar/access_right/c_abf2
eu_rights_str_mv openAccess
dc.format.extent.spa.fl_str_mv 19 páginas
dc.format.medium.spa.fl_str_mv Digital
dc.coverage.spatial.spa.fl_str_mv Cali de Lat: 03 24 00 N degrees minutes Lat: 3.4000 decimal degrees Long: 076 30 00 W degrees minutes Long: -76.5000 decimal degrees.
dc.publisher.spa.fl_str_mv Universidad Icesi
dc.publisher.faculty.spa.fl_str_mv Facultad de Ingeniería
dc.publisher.program.spa.fl_str_mv Ingeniería Telemática
dc.publisher.department.spa.fl_str_mv Tecnologías De Información Y Comunicaciones Tic
dc.publisher.place.spa.fl_str_mv Santiago de Cali
institution Universidad ICESI
bitstream.url.fl_str_mv http://repository.icesi.edu.co/biblioteca_digital/bitstream/10906/84479/2/license.txt
http://repository.icesi.edu.co/biblioteca_digital/bitstream/10906/84479/1/documento.html
bitstream.checksum.fl_str_mv 8a4605be74aa9ea9d79846c1fba20a33
d2f455c565f096affb56834bc7f29277
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Biblioteca Digital - Universidad icesi
repository.mail.fl_str_mv cdcriollo@icesi.edu.co
_version_ 1814094880752795648
spelling Cabeza Ruiz, Robinrobbinc91@uho.edu.cuCali de Lat: 03 24 00 N degrees minutes Lat: 3.4000 decimal degrees Long: 076 30 00 W degrees minutes Long: -76.5000 decimal degrees.2019-03-04T16:12:06Z2019-03-04T16:12:06Z2017-06-121692-5238http://repository.icesi.edu.co/biblioteca_digital/handle/10906/84479https://doi.org/10.18046/syt.v15i43.2712instname: Universidad Icesireponame: Biblioteca Digitalrepourl: https://repository.icesi.edu.co/En este trabajo se propone la utilización de los campos aleatorios condicionales para la resolución de la tarea de segmentación de textos por idioma, considerándola como una tarea de etiquetado de secuencias. La metodología considera que el cambio entre un idioma y otro en los documentos ocurrirá en cualquier parte del texto y asume que las observaciones en el sistema estarán dadas por las palabras en el texto y que los estados serán los diferentes idiomas. De la investigación se concluye que los campos aleatorios condicionales son una herramienta muy poderosa para la segmentación de textos multilingües.This work presents using conditional random fields for solving the task of text segmentation by language, considering it as a sequence tagging task. Language changes are considered to occur in every part of the text, observations are assumed to be the words in the text, and the states are the different languages. Research let conclude that conditional random fields are a powerful tool for segmentation of multilingual text.19 páginasDigitalspaUniversidad IcesiFacultad de IngenieríaIngeniería TelemáticaTecnologías De Información Y Comunicaciones TicSantiago de CaliSistemas y Telemática, Vol. 15, No. 43 - 2017EL AUTOR, expresa que la obra objeto de la presente autorización es original y la elaboró sin quebrantar ni suplantar los derechos de autor de terceros, y de tal forma, la obra es de su exclusiva autoría y tiene la titularidad sobre éste. PARÁGRAFO: en caso de queja o acción por parte de un tercero referente a los derechos de autor sobre el artículo, folleto o libro en cuestión, EL AUTOR, asumirá la responsabilidad total, y saldrá en defensa de los derechos aquí autorizados; para todos los efectos, la Universidad Icesi actúa como un tercero de buena fe. Esta autorización, permite a la Universidad Icesi, de forma indefinida, para que en los términos establecidos en la Ley 23 de 1982, la Ley 44 de 1993, leyes y jurisprudencia vigente al respecto, haga publicación de este con fines educativos. Toda persona que consulte ya sea la biblioteca o en medio electrónico podrá copiar apartes del texto citando siempre la fuentes, es decir el título del trabajo y el autor.https://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccessAtribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)http://purl.org/coar/access_right/c_abf2SegmentaciónHerramienta tecnológicaHerramientas computacionalesTextos digitalesConditional random fields in text segmentation by languageLos campos aleatorios condicionales en la segmentación de textos por idiomainfo:eu-repo/semantics/articlehttp://purl.org/coar/resource_type/c_2df8fbb1Artículoinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/version/c_970fb48d4fbd8a85Comunidad Universidad Icesi - Investigadores15431927LICENSElicense.txtlicense.txttext/plain1748http://repository.icesi.edu.co/biblioteca_digital/bitstream/10906/84479/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD52ORIGINALdocumento.htmldocumento.htmltext/html291http://repository.icesi.edu.co/biblioteca_digital/bitstream/10906/84479/1/documento.htmld2f455c565f096affb56834bc7f29277MD5110906/84479oai:repository.icesi.edu.co:10906/844792019-03-04 11:58:19.781Biblioteca Digital - Universidad icesicdcriollo@icesi.edu.coTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=