Sistema de extracción de cuerpos de texto de la web para tareas lingüísticas

En este artículo se describe un sistema desarrollado para la extracción de grandes cuerpos de texto de Internet, teniendo como motivación el valor que ofrecen los ejemplos de lenguaje natural disponibles en la red para las tareas de aprendizaje no supervi- sado de dichos naturales, dado por caracter...

Full description

Autores:
Cadavid Rengifo, Héctor Fabio
Gómez Perdomo, Jonatan
Tipo de recurso:
Article of journal
Fecha de publicación:
2009
Institución:
Universidad Nacional de Colombia
Repositorio:
Universidad Nacional de Colombia
Idioma:
spa
OAI Identifier:
oai:repositorio.unal.edu.co:unal/29181
Acceso en línea:
https://repositorio.unal.edu.co/handle/unal/29181
http://bdigital.unal.edu.co/19229/
http://bdigital.unal.edu.co/19229/2/
Palabra clave:
Web Corpus
crawler
unsupervised language learning
concurrent programming
corpus web
crawler
aprendizaje no supervisado de lenguajes
programación concurrente
Rights
openAccess
License
Atribución-NoComercial 4.0 Internacional
id UNACIONAL2_32ef3886987d8a1200c311b5d3f54504
oai_identifier_str oai:repositorio.unal.edu.co:unal/29181
network_acronym_str UNACIONAL2
network_name_str Universidad Nacional de Colombia
repository_id_str
dc.title.spa.fl_str_mv Sistema de extracción de cuerpos de texto de la web para tareas lingüísticas
title Sistema de extracción de cuerpos de texto de la web para tareas lingüísticas
spellingShingle Sistema de extracción de cuerpos de texto de la web para tareas lingüísticas
Web Corpus
crawler
unsupervised language learning
concurrent programming
corpus web
crawler
aprendizaje no supervisado de lenguajes
programación concurrente
title_short Sistema de extracción de cuerpos de texto de la web para tareas lingüísticas
title_full Sistema de extracción de cuerpos de texto de la web para tareas lingüísticas
title_fullStr Sistema de extracción de cuerpos de texto de la web para tareas lingüísticas
title_full_unstemmed Sistema de extracción de cuerpos de texto de la web para tareas lingüísticas
title_sort Sistema de extracción de cuerpos de texto de la web para tareas lingüísticas
dc.creator.fl_str_mv Cadavid Rengifo, Héctor Fabio
Gómez Perdomo, Jonatan
dc.contributor.author.spa.fl_str_mv Cadavid Rengifo, Héctor Fabio
Gómez Perdomo, Jonatan
dc.subject.proposal.spa.fl_str_mv Web Corpus
crawler
unsupervised language learning
concurrent programming
corpus web
crawler
aprendizaje no supervisado de lenguajes
programación concurrente
topic Web Corpus
crawler
unsupervised language learning
concurrent programming
corpus web
crawler
aprendizaje no supervisado de lenguajes
programación concurrente
description En este artículo se describe un sistema desarrollado para la extracción de grandes cuerpos de texto de Internet, teniendo como motivación el valor que ofrecen los ejemplos de lenguaje natural disponibles en la red para las tareas de aprendizaje no supervi- sado de dichos naturales, dado por características como su enorme volumen, permanente actualización respecto de las altera- ciones del lenguaje, y bajo costo, en tiempo y recursos, en cuanto a los mecanismos tradicionales de construcción de corpus pa- ra esas tareas de aprendizaje. Se presentan las estrategias incorporadas al sistema con el fin de maximizar el aprovechamiento de los recursos de hardware y así reducir los tiempos de extracción, al igual que se presentan las características de extensibilidad para los formatos soportados, y adaptabilidad respecto a la manera como el sistema limpia los contenidos para obtener mues- tras de lenguaje natural puras. Al final del artículo se presentan los resultados experimentales obtenidos con uno de los dominios de contenido en español más grande de Internet: es.wikipedia.org, a través de los cuales se concluye sobre la validez y aplicabi- lidad de un corpus extraído directamente de la Internet para un eventual proceso de aprendizaje de morfología o sintaxis.
publishDate 2009
dc.date.issued.spa.fl_str_mv 2009
dc.date.accessioned.spa.fl_str_mv 2019-06-26T13:37:14Z
dc.date.available.spa.fl_str_mv 2019-06-26T13:37:14Z
dc.type.spa.fl_str_mv Artículo de revista
dc.type.coar.fl_str_mv http://purl.org/coar/resource_type/c_2df8fbb1
dc.type.driver.spa.fl_str_mv info:eu-repo/semantics/article
dc.type.version.spa.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.coar.spa.fl_str_mv http://purl.org/coar/resource_type/c_6501
dc.type.coarversion.spa.fl_str_mv http://purl.org/coar/version/c_970fb48d4fbd8a85
dc.type.content.spa.fl_str_mv Text
dc.type.redcol.spa.fl_str_mv http://purl.org/redcol/resource_type/ART
format http://purl.org/coar/resource_type/c_6501
status_str publishedVersion
dc.identifier.uri.none.fl_str_mv https://repositorio.unal.edu.co/handle/unal/29181
dc.identifier.eprints.spa.fl_str_mv http://bdigital.unal.edu.co/19229/
http://bdigital.unal.edu.co/19229/2/
url https://repositorio.unal.edu.co/handle/unal/29181
http://bdigital.unal.edu.co/19229/
http://bdigital.unal.edu.co/19229/2/
dc.language.iso.spa.fl_str_mv spa
language spa
dc.relation.spa.fl_str_mv http://revistas.unal.edu.co/index.php/ingeinv/article/view/15183
dc.relation.ispartof.spa.fl_str_mv Universidad Nacional de Colombia Revistas electrónicas UN Ingeniería e Investigación
Ingeniería e Investigación
dc.relation.ispartofseries.none.fl_str_mv Ingeniería e Investigación; Vol. 29, núm. 3 (2009); 54-60 Ingeniería e Investigación; Vol. 29, núm. 3 (2009); 54-60 2248-8723 0120-5609
dc.relation.references.spa.fl_str_mv Cadavid Rengifo, Héctor Fabio and Gómez Perdomo, Jonatan (2009) Sistema de extracción de cuerpos de texto de la web para tareas lingüísticas. Ingeniería e Investigación; Vol. 29, núm. 3 (2009); 54-60 Ingeniería e Investigación; Vol. 29, núm. 3 (2009); 54-60 2248-8723 0120-5609 .
dc.rights.spa.fl_str_mv Derechos reservados - Universidad Nacional de Colombia
dc.rights.coar.fl_str_mv http://purl.org/coar/access_right/c_abf2
dc.rights.license.spa.fl_str_mv Atribución-NoComercial 4.0 Internacional
dc.rights.uri.spa.fl_str_mv http://creativecommons.org/licenses/by-nc/4.0/
dc.rights.accessrights.spa.fl_str_mv info:eu-repo/semantics/openAccess
rights_invalid_str_mv Atribución-NoComercial 4.0 Internacional
Derechos reservados - Universidad Nacional de Colombia
http://creativecommons.org/licenses/by-nc/4.0/
http://purl.org/coar/access_right/c_abf2
eu_rights_str_mv openAccess
dc.format.mimetype.spa.fl_str_mv application/pdf
dc.publisher.spa.fl_str_mv Universidad Nacional de Colombia - Facultad de Ingeniería
institution Universidad Nacional de Colombia
bitstream.url.fl_str_mv https://repositorio.unal.edu.co/bitstream/unal/29181/1/15183-46017-1-PB.pdf
https://repositorio.unal.edu.co/bitstream/unal/29181/2/15183-46017-1-PB.pdf.jpg
bitstream.checksum.fl_str_mv 68fef37e1d008b363507ea2194d3f46f
bc4d77f0080a1a3af95562f41e539472
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositorio Institucional Universidad Nacional de Colombia
repository.mail.fl_str_mv repositorio_nal@unal.edu.co
_version_ 1806886643071713280
spelling Atribución-NoComercial 4.0 InternacionalDerechos reservados - Universidad Nacional de Colombiahttp://creativecommons.org/licenses/by-nc/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Cadavid Rengifo, Héctor Fabiof6381fce-b563-4cef-b7e2-b19c726862c7300Gómez Perdomo, Jonatan43ef4bd0-7b88-44b2-8a35-e49c549101e53002019-06-26T13:37:14Z2019-06-26T13:37:14Z2009https://repositorio.unal.edu.co/handle/unal/29181http://bdigital.unal.edu.co/19229/http://bdigital.unal.edu.co/19229/2/En este artículo se describe un sistema desarrollado para la extracción de grandes cuerpos de texto de Internet, teniendo como motivación el valor que ofrecen los ejemplos de lenguaje natural disponibles en la red para las tareas de aprendizaje no supervi- sado de dichos naturales, dado por características como su enorme volumen, permanente actualización respecto de las altera- ciones del lenguaje, y bajo costo, en tiempo y recursos, en cuanto a los mecanismos tradicionales de construcción de corpus pa- ra esas tareas de aprendizaje. Se presentan las estrategias incorporadas al sistema con el fin de maximizar el aprovechamiento de los recursos de hardware y así reducir los tiempos de extracción, al igual que se presentan las características de extensibilidad para los formatos soportados, y adaptabilidad respecto a la manera como el sistema limpia los contenidos para obtener mues- tras de lenguaje natural puras. Al final del artículo se presentan los resultados experimentales obtenidos con uno de los dominios de contenido en español más grande de Internet: es.wikipedia.org, a través de los cuales se concluye sobre la validez y aplicabi- lidad de un corpus extraído directamente de la Internet para un eventual proceso de aprendizaje de morfología o sintaxis.Internet content, used as text corpus for natural language learning, offers important characteristics for such task, like its huge vo- lume, being permanently up-to-date with linguistic variants and having low time and resource costs regarding the traditional way that text is built for natural language machine learning tasks. This paper describes a system for the automatic extraction of large bodies of text from the Internet as a valuable tool for such learning tasks. A concurrent programming-based, hardware-use opti- misation strategy significantly improving extraction performance is also presented. The strategies incorporated into the system for maximising hardware resource exploitation, thereby reducing extraction time are presented, as are extendibility (supporting digi- tal-content formats) and adaptability (regarding how the system cleanses content for obtaining pure natural language samples). The experimental results obtained after processing one of the biggest Spanish domains on the internet, are presented (i.e. es.wikipedia.org). Such results are used for presenting initial conclusions about the validity and applicability of corpus directly ex- tracted from Internet as morphological or syntactical learning input.application/pdfspaUniversidad Nacional de Colombia - Facultad de Ingenieríahttp://revistas.unal.edu.co/index.php/ingeinv/article/view/15183Universidad Nacional de Colombia Revistas electrónicas UN Ingeniería e InvestigaciónIngeniería e InvestigaciónIngeniería e Investigación; Vol. 29, núm. 3 (2009); 54-60 Ingeniería e Investigación; Vol. 29, núm. 3 (2009); 54-60 2248-8723 0120-5609Cadavid Rengifo, Héctor Fabio and Gómez Perdomo, Jonatan (2009) Sistema de extracción de cuerpos de texto de la web para tareas lingüísticas. Ingeniería e Investigación; Vol. 29, núm. 3 (2009); 54-60 Ingeniería e Investigación; Vol. 29, núm. 3 (2009); 54-60 2248-8723 0120-5609 .Sistema de extracción de cuerpos de texto de la web para tareas lingüísticasArtículo de revistainfo:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_6501http://purl.org/coar/resource_type/c_2df8fbb1http://purl.org/coar/version/c_970fb48d4fbd8a85Texthttp://purl.org/redcol/resource_type/ARTWeb Corpuscrawlerunsupervised language learningconcurrent programmingcorpus webcrawleraprendizaje no supervisado de lenguajesprogramación concurrenteORIGINAL15183-46017-1-PB.pdfapplication/pdf578949https://repositorio.unal.edu.co/bitstream/unal/29181/1/15183-46017-1-PB.pdf68fef37e1d008b363507ea2194d3f46fMD51THUMBNAIL15183-46017-1-PB.pdf.jpg15183-46017-1-PB.pdf.jpgGenerated Thumbnailimage/jpeg8830https://repositorio.unal.edu.co/bitstream/unal/29181/2/15183-46017-1-PB.pdf.jpgbc4d77f0080a1a3af95562f41e539472MD52unal/29181oai:repositorio.unal.edu.co:unal/291812022-11-20 23:02:30.638Repositorio Institucional Universidad Nacional de Colombiarepositorio_nal@unal.edu.co