Text segmentation by language

La segmentación de textos por idioma puede ser abordada de dos maneras: la primera, asumiendo que los cambios de idioma solo ocurren en los saltos entre oraciones; y la segunda, asumiendo que el idioma puede cambiar en cualquier lugar del texto. En este trabajo se presentan métodos para segmentar am...

Full description

Autores:
Ruiz, Robin Cabeza
Tipo de recurso:
Article of investigation
Fecha de publicación:
2016
Institución:
Universidad ICESI
Repositorio:
Repositorio ICESI
Idioma:
spa
OAI Identifier:
oai:repository.icesi.edu.co:10906/81510
Acceso en línea:
http://hdl.handle.net/10906/81510
http://www.icesi.edu.co/revistas/index.php/sistemas_telematica/article/view/2289
https://doi.org/10.18046/syt.v14i38.2289
Palabra clave:
Textos
Lenguaje natural
Rights
openAccess
License
https://creativecommons.org/licenses/by-nc-nd/4.0/
id ICESI2_0fc4b7211dfabb4ba4aea4907e62dad8
oai_identifier_str oai:repository.icesi.edu.co:10906/81510
network_acronym_str ICESI2
network_name_str Repositorio ICESI
repository_id_str
spelling Ruiz, Robin CabezaCali de Lat: 03 24 00 N degrees minutes Lat: 3.4000 decimal degrees Long: 076 30 00 W degrees minutes Long: -76.5000 decimal degrees.2017-05-27T02:24:16Z2017-05-27T02:24:16Z2016-07-011692-5238http://hdl.handle.net/10906/81510http://www.icesi.edu.co/revistas/index.php/sistemas_telematica/article/view/2289https://doi.org/10.18046/syt.v14i38.2289instname: Universidad Icesireponame: Biblioteca Digitalrepourl: https://repository.icesi.edu.co/La segmentación de textos por idioma puede ser abordada de dos maneras: la primera, asumiendo que los cambios de idioma solo ocurren en los saltos entre oraciones; y la segunda, asumiendo que el idioma puede cambiar en cualquier lugar del texto. En este trabajo se presentan métodos para segmentar ambos tipos de textos por idiomas. Para el primer caso se segmenta el texto a analizar por oraciones y luego se identifica el idioma de cada oración; la segunda propuesta consiste en la adaptación de los modelos ocultos de Markov a la tarea de segmentación de textos por idiomas. El estado del arte es superado por ambas propuestas, según los resultados obtenidos en la experimentación realizada.There are two approaches for text segmentation by language: first, assuming that language changes ha-ppen in the “border” between sentences (never within a sentence); second, assuming that language changes can happen anyplace in the text. This work presents methods for both types of text’s segmentation by languages. On the first pro-posal, the text is initially segmented by sentence, then the language of each sentence is obtained; the second proposal is an adaptation of hidden Markov model to this task. Both cases, according to results obtained in experimental proofs, exceed the state of art.9 páginasDigitalapplication/pdfspaFacultad de IngenieríaSantiago de CaliSistemas & Telemática, Vol. 14, No. 38 - 2016EL AUTOR, expresa que la obra objeto de la presente autorización es original y la elaboró sin quebrantar ni suplantar los derechos de autor de terceros, y de tal forma, la obra es de su exclusiva autoría y tiene la titularidad sobre éste. PARÁGRAFO: en caso de queja o acción por parte de un tercero referente a los derechos de autor sobre el artículo, folleto o libro en cuestión, EL AUTOR, asumirá la responsabilidad total, y saldrá en defensa de los derechos aquí autorizados; para todos los efectos, la Universidad Icesi actúa como un tercero de buena fe. Esta autorización, permite a la Universidad Icesi, de forma indefinida, para que en los términos establecidos en la Ley 23 de 1982, la Ley 44 de 1993, leyes y jurisprudencia vigente al respecto, haga publicación de este con fines educativos. Toda persona que consulte ya sea la biblioteca o en medio electrónico podrá copiar apartes del texto citando siempre la fuentes, es decir el título del trabajo y el autor.https://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccessAtribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)http://purl.org/coar/access_right/c_abf2TextosLenguaje naturalText segmentation by languageinfo:eu-repo/semantics/articlehttp://purl.org/coar/resource_type/c_2df8fbb1Artículoinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/version/c_970fb48d4fbd8a85Comunidad Universidad Icesi – Investigadores146574ORIGINALdocumento.htmldocumento.htmltext/html319http://repository.icesi.edu.co/biblioteca_digital/bitstream/10906/81510/1/documento.htmlb18ccd502dec575fa6d0e95dd0797b07MD5110906/81510oai:repository.icesi.edu.co:10906/815102018-11-27 17:14:04.558Biblioteca Digital - Universidad icesicdcriollo@icesi.edu.co
dc.title.spa.fl_str_mv Text segmentation by language
title Text segmentation by language
spellingShingle Text segmentation by language
Textos
Lenguaje natural
title_short Text segmentation by language
title_full Text segmentation by language
title_fullStr Text segmentation by language
title_full_unstemmed Text segmentation by language
title_sort Text segmentation by language
dc.creator.fl_str_mv Ruiz, Robin Cabeza
dc.contributor.author.spa.fl_str_mv Ruiz, Robin Cabeza
dc.subject.none.fl_str_mv Textos
Lenguaje natural
topic Textos
Lenguaje natural
description La segmentación de textos por idioma puede ser abordada de dos maneras: la primera, asumiendo que los cambios de idioma solo ocurren en los saltos entre oraciones; y la segunda, asumiendo que el idioma puede cambiar en cualquier lugar del texto. En este trabajo se presentan métodos para segmentar ambos tipos de textos por idiomas. Para el primer caso se segmenta el texto a analizar por oraciones y luego se identifica el idioma de cada oración; la segunda propuesta consiste en la adaptación de los modelos ocultos de Markov a la tarea de segmentación de textos por idiomas. El estado del arte es superado por ambas propuestas, según los resultados obtenidos en la experimentación realizada.
publishDate 2016
dc.date.issued.none.fl_str_mv 2016-07-01
dc.date.accessioned.none.fl_str_mv 2017-05-27T02:24:16Z
dc.date.available.none.fl_str_mv 2017-05-27T02:24:16Z
dc.type.none.fl_str_mv info:eu-repo/semantics/article
dc.type.coar.none.fl_str_mv http://purl.org/coar/resource_type/c_2df8fbb1
dc.type.local.none.fl_str_mv Artículo
dc.type.version.none.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.coarversion.none.fl_str_mv http://purl.org/coar/version/c_970fb48d4fbd8a85
format http://purl.org/coar/resource_type/c_2df8fbb1
status_str publishedVersion
dc.identifier.issn.none.fl_str_mv 1692-5238
dc.identifier.other.spa.fl_str_mv http://hdl.handle.net/10906/81510
dc.identifier.uri.none.fl_str_mv http://www.icesi.edu.co/revistas/index.php/sistemas_telematica/article/view/2289
dc.identifier.doi.none.fl_str_mv https://doi.org/10.18046/syt.v14i38.2289
dc.identifier.instname.none.fl_str_mv instname: Universidad Icesi
dc.identifier.reponame.none.fl_str_mv reponame: Biblioteca Digital
dc.identifier.repourl.none.fl_str_mv repourl: https://repository.icesi.edu.co/
identifier_str_mv 1692-5238
instname: Universidad Icesi
reponame: Biblioteca Digital
repourl: https://repository.icesi.edu.co/
url http://hdl.handle.net/10906/81510
http://www.icesi.edu.co/revistas/index.php/sistemas_telematica/article/view/2289
https://doi.org/10.18046/syt.v14i38.2289
dc.language.iso.none.fl_str_mv spa
language spa
dc.relation.ispartof.none.fl_str_mv Sistemas & Telemática, Vol. 14, No. 38 - 2016
dc.rights.uri.none.fl_str_mv https://creativecommons.org/licenses/by-nc-nd/4.0/
dc.rights.accessrights.none.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.license.none.fl_str_mv Atribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)
dc.rights.coar.none.fl_str_mv http://purl.org/coar/access_right/c_abf2
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-nd/4.0/
Atribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)
http://purl.org/coar/access_right/c_abf2
eu_rights_str_mv openAccess
dc.format.extent.none.fl_str_mv 9 páginas
dc.format.medium.none.fl_str_mv Digital
dc.format.mimetype.none.fl_str_mv application/pdf
dc.coverage.spatial.none.fl_str_mv Cali de Lat: 03 24 00 N degrees minutes Lat: 3.4000 decimal degrees Long: 076 30 00 W degrees minutes Long: -76.5000 decimal degrees.
dc.publisher.none.fl_str_mv Facultad de Ingeniería
dc.publisher.place.none.fl_str_mv Santiago de Cali
publisher.none.fl_str_mv Facultad de Ingeniería
institution Universidad ICESI
bitstream.url.fl_str_mv http://repository.icesi.edu.co/biblioteca_digital/bitstream/10906/81510/1/documento.html
bitstream.checksum.fl_str_mv b18ccd502dec575fa6d0e95dd0797b07
bitstream.checksumAlgorithm.fl_str_mv MD5
repository.name.fl_str_mv Biblioteca Digital - Universidad icesi
repository.mail.fl_str_mv cdcriollo@icesi.edu.co
_version_ 1814094873718947840