Text segmentation by language
La segmentación de textos por idioma puede ser abordada de dos maneras: la primera, asumiendo que los cambios de idioma solo ocurren en los saltos entre oraciones; y la segunda, asumiendo que el idioma puede cambiar en cualquier lugar del texto. En este trabajo se presentan métodos para segmentar am...
- Autores:
-
Ruiz, Robin Cabeza
- Tipo de recurso:
- Article of investigation
- Fecha de publicación:
- 2016
- Institución:
- Universidad ICESI
- Repositorio:
- Repositorio ICESI
- Idioma:
- spa
- OAI Identifier:
- oai:repository.icesi.edu.co:10906/81510
- Acceso en línea:
- http://hdl.handle.net/10906/81510
http://www.icesi.edu.co/revistas/index.php/sistemas_telematica/article/view/2289
https://doi.org/10.18046/syt.v14i38.2289
- Palabra clave:
- Textos
Lenguaje natural
- Rights
- openAccess
- License
- https://creativecommons.org/licenses/by-nc-nd/4.0/
Summary: | La segmentación de textos por idioma puede ser abordada de dos maneras: la primera, asumiendo que los cambios de idioma solo ocurren en los saltos entre oraciones; y la segunda, asumiendo que el idioma puede cambiar en cualquier lugar del texto. En este trabajo se presentan métodos para segmentar ambos tipos de textos por idiomas. Para el primer caso se segmenta el texto a analizar por oraciones y luego se identifica el idioma de cada oración; la segunda propuesta consiste en la adaptación de los modelos ocultos de Markov a la tarea de segmentación de textos por idiomas. El estado del arte es superado por ambas propuestas, según los resultados obtenidos en la experimentación realizada. |
---|