Un método de etiquetado semiautomático de corpus lingüísticos
La lingüística computacional es un campo interdisciplinar cuyo interés principal es la creación de modelos formales que permitan el procesamiento automático de las lenguas naturales. A partir de estos modelos se procesa el lenguaje natural emulando, desde la inteligencia artificial, la capacidad hum...
- Autores:
-
Marín Morales, Maria Isabel
Molina, Jorge
- Tipo de recurso:
- Part of book
- Fecha de publicación:
- 2020
- Institución:
- Tecnológico de Antioquia
- Repositorio:
- Repositorio Tdea
- Idioma:
- spa
- OAI Identifier:
- oai:dspace.tdea.edu.co:tdea/1115
- Acceso en línea:
- https://dspace.tdea.edu.co/handle/tdea/1115
- Palabra clave:
- Educación
Organización y gestión
- Rights
- openAccess
- License
- http://purl.org/coar/access_right/c_abf2
Summary: | La lingüística computacional es un campo interdisciplinar cuyo interés principal es la creación de modelos formales que permitan el procesamiento automático de las lenguas naturales. A partir de estos modelos se procesa el lenguaje natural emulando, desde la inteligencia artificial, la capacidad humana de comprender o reproducir el lenguaje dentro de un entorno comunicativo (producción escrita u oral de datos lingüísticos) [1], [2].Uno de los mecanismos o enfoques metodológicos de los cuales se sirve la lingüística computacional es la lingüística de corpus. Esta se encarga de estudiar la manera más adecuada de gestionar producciones reales de la lengua, almacenadas en textos u otros formatos (audio, video, imágenes, etc.) con el fin de analizar la propia lengua desde sus distintos niveles: fonético, morfológico, sintáctico, lexical, semántico y pragmático [3]. De ahí que la lingüística de corpus se aplique a lo que tiene que ver con la recolección, procesamiento y análisis de grandes muestras de una determinada lengua [4]. Dichas muestras son definidas como corpus, los cuales son conjuntos de textos digitalizados, reunidos y seleccionados teniendo en cuenta unos criterios lingüísticos, a saber: a) que sean recolectados en entornos naturales; b) que posean rasgos definitorios explícitos; c) con una similar extensión o tamaño; d) que se encuentren disponibles; e) que sean accesibles; f) que sean representativos de una determinada lengua; g) que cuenten con metadatos descriptores, y h) que se encuentren compilados bajo criterios o parámetros de organización [3] |
---|