Sistema de extracción de cuerpos de texto de la web para tareas lingüísticas

En este artículo se describe un sistema desarrollado para la extracción de grandes cuerpos de texto de Internet, teniendo como motivación el valor que ofrecen los ejemplos de lenguaje natural disponibles en la red para las tareas de aprendizaje no supervi- sado de dichos naturales, dado por caracter...

Full description

Autores:
Cadavid Rengifo, Héctor Fabio
Gómez Perdomo, Jonatan
Tipo de recurso:
Article of journal
Fecha de publicación:
2009
Institución:
Universidad Nacional de Colombia
Repositorio:
Universidad Nacional de Colombia
Idioma:
spa
OAI Identifier:
oai:repositorio.unal.edu.co:unal/29181
Acceso en línea:
https://repositorio.unal.edu.co/handle/unal/29181
http://bdigital.unal.edu.co/19229/
http://bdigital.unal.edu.co/19229/2/
Palabra clave:
Web Corpus
crawler
unsupervised language learning
concurrent programming
corpus web
crawler
aprendizaje no supervisado de lenguajes
programación concurrente
Rights
openAccess
License
Atribución-NoComercial 4.0 Internacional
Description
Summary:En este artículo se describe un sistema desarrollado para la extracción de grandes cuerpos de texto de Internet, teniendo como motivación el valor que ofrecen los ejemplos de lenguaje natural disponibles en la red para las tareas de aprendizaje no supervi- sado de dichos naturales, dado por características como su enorme volumen, permanente actualización respecto de las altera- ciones del lenguaje, y bajo costo, en tiempo y recursos, en cuanto a los mecanismos tradicionales de construcción de corpus pa- ra esas tareas de aprendizaje. Se presentan las estrategias incorporadas al sistema con el fin de maximizar el aprovechamiento de los recursos de hardware y así reducir los tiempos de extracción, al igual que se presentan las características de extensibilidad para los formatos soportados, y adaptabilidad respecto a la manera como el sistema limpia los contenidos para obtener mues- tras de lenguaje natural puras. Al final del artículo se presentan los resultados experimentales obtenidos con uno de los dominios de contenido en español más grande de Internet: es.wikipedia.org, a través de los cuales se concluye sobre la validez y aplicabi- lidad de un corpus extraído directamente de la Internet para un eventual proceso de aprendizaje de morfología o sintaxis.