Un método de etiquetado semiautomático de corpus lingüísticos

La lingüística computacional es un campo interdisciplinar cuyo interés principal es la creación de modelos formales que permitan el procesamiento automático de las lenguas naturales. A partir de estos modelos se procesa el lenguaje natural emulando, desde la inteligencia artificial, la capacidad hum...

Full description

Autores:
Marín Morales, Maria Isabel
Molina, Jorge
Tipo de recurso:
Part of book
Fecha de publicación:
2020
Institución:
Tecnológico de Antioquia
Repositorio:
Repositorio Tdea
Idioma:
spa
OAI Identifier:
oai:dspace.tdea.edu.co:tdea/1115
Acceso en línea:
https://dspace.tdea.edu.co/handle/tdea/1115
Palabra clave:
Educación
Organización y gestión
Rights
openAccess
License
http://purl.org/coar/access_right/c_abf2
Description
Summary:La lingüística computacional es un campo interdisciplinar cuyo interés principal es la creación de modelos formales que permitan el procesamiento automático de las lenguas naturales. A partir de estos modelos se procesa el lenguaje natural emulando, desde la inteligencia artificial, la capacidad humana de comprender o reproducir el lenguaje dentro de un entorno comunicativo (producción escrita u oral de datos lingüísticos) [1], [2].Uno de los mecanismos o enfoques metodológicos de los cuales se sirve la lingüística computacional es la lingüística de corpus. Esta se encarga de estudiar la manera más adecuada de gestionar producciones reales de la lengua, almacenadas en textos u otros formatos (audio, video, imágenes, etc.) con el fin de analizar la propia lengua desde sus distintos niveles: fonético, morfológico, sintáctico, lexical, semántico y pragmático [3]. De ahí que la lingüística de corpus se aplique a lo que tiene que ver con la recolección, procesamiento y análisis de grandes muestras de una determinada lengua [4]. Dichas muestras son definidas como corpus, los cuales son conjuntos de textos digitalizados, reunidos y seleccionados teniendo en cuenta unos criterios lingüísticos, a saber: a) que sean recolectados en entornos naturales; b) que posean rasgos definitorios explícitos; c) con una similar extensión o tamaño; d) que se encuentren disponibles; e) que sean accesibles; f) que sean representativos de una determinada lengua; g) que cuenten con metadatos descriptores, y h) que se encuentren compilados bajo criterios o parámetros de organización [3]