Sistema de extracción de cuerpos de texto de la web para tareas lingüísticas

En este artículo se describe un sistema desarrollado para la extracción de grandes cuerpos de texto de Internet, teniendo como motivación el valor que ofrecen los ejemplos de lenguaje natural disponibles en la red para las tareas de aprendizaje no supervisado de dichos naturales, dado por caracterís...

Full description

Autores:
Cadavid Rengifo, Héctor Fabio
Gómez Perdomo, Jonatan
Tipo de recurso:
Article of journal
Fecha de publicación:
2009
Institución:
Escuela Colombiana de Ingeniería Julio Garavito
Repositorio:
Repositorio Institucional ECI
Idioma:
spa
OAI Identifier:
oai:repositorio.escuelaing.edu.co:001/1903
Acceso en línea:
https://repositorio.escuelaing.edu.co/handle/001/1903
Palabra clave:
corpus web
crawler
aprendizaje no supervisado de lenguajes
programación concurrente
web corpus
crawler
unsupervised language learning
concurrent programming
Rights
openAccess
License
https://creativecommons.org/licenses/by/4.0/
id ESCUELAIG2_ee72b0e8a55d215d466cae8a70fde6f8
oai_identifier_str oai:repositorio.escuelaing.edu.co:001/1903
network_acronym_str ESCUELAIG2
network_name_str Repositorio Institucional ECI
repository_id_str
dc.title.spa.fl_str_mv Sistema de extracción de cuerpos de texto de la web para tareas lingüísticas
title Sistema de extracción de cuerpos de texto de la web para tareas lingüísticas
spellingShingle Sistema de extracción de cuerpos de texto de la web para tareas lingüísticas
corpus web
crawler
aprendizaje no supervisado de lenguajes
programación concurrente
web corpus
crawler
unsupervised language learning
concurrent programming
title_short Sistema de extracción de cuerpos de texto de la web para tareas lingüísticas
title_full Sistema de extracción de cuerpos de texto de la web para tareas lingüísticas
title_fullStr Sistema de extracción de cuerpos de texto de la web para tareas lingüísticas
title_full_unstemmed Sistema de extracción de cuerpos de texto de la web para tareas lingüísticas
title_sort Sistema de extracción de cuerpos de texto de la web para tareas lingüísticas
dc.creator.fl_str_mv Cadavid Rengifo, Héctor Fabio
Gómez Perdomo, Jonatan
dc.contributor.author.none.fl_str_mv Cadavid Rengifo, Héctor Fabio
Gómez Perdomo, Jonatan
dc.contributor.researchgroup.spa.fl_str_mv Informática
dc.subject.proposal.spa.fl_str_mv corpus web
crawler
aprendizaje no supervisado de lenguajes
programación concurrente
topic corpus web
crawler
aprendizaje no supervisado de lenguajes
programación concurrente
web corpus
crawler
unsupervised language learning
concurrent programming
dc.subject.proposal.eng.fl_str_mv web corpus
crawler
unsupervised language learning
concurrent programming
description En este artículo se describe un sistema desarrollado para la extracción de grandes cuerpos de texto de Internet, teniendo como motivación el valor que ofrecen los ejemplos de lenguaje natural disponibles en la red para las tareas de aprendizaje no supervisado de dichos naturales, dado por características como su enorme volumen, permanente actualización respecto de las alteraciones del lenguaje, y bajo costo, en tiempo y recursos, en cuanto a los mecanismos tradicionales de construcción de corpus para esas tareas de aprendizaje. Se presentan las estrategias incorporadas al sistema con el fin de maximizar el aprovechamiento de los recursos de hardware y así reducir los tiempos de extracción, al igual que se presentan las características de extensibilidad para los formatos soportados, y adaptabilidad respecto a la manera como el sistema limpia los contenidos para obtener muestras de lenguaje natural puras. Al final del artículo se presentan los resultados experimentales obtenidos con uno de los dominios de contenido en español más grande de Internet: es.wikipedia.org, a través de los cuales se concluye sobre la validez y aplicabilidad de un corpus extraído directamente de la Internet para un eventual proceso de aprendizaje de morfología o sintaxis.
publishDate 2009
dc.date.issued.none.fl_str_mv 2009
dc.date.accessioned.none.fl_str_mv 2021-12-04T16:03:44Z
dc.date.available.none.fl_str_mv 2021-12-04T16:03:44Z
dc.type.spa.fl_str_mv Artículo de revista
dc.type.coar.fl_str_mv http://purl.org/coar/resource_type/c_2df8fbb1
dc.type.coarversion.fl_str_mv http://purl.org/coar/version/c_970fb48d4fbd8a85
dc.type.version.spa.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.coar.spa.fl_str_mv http://purl.org/coar/resource_type/c_6501
dc.type.content.spa.fl_str_mv Text
dc.type.driver.spa.fl_str_mv info:eu-repo/semantics/article
dc.type.redcol.spa.fl_str_mv http://purl.org/redcol/resource_type/ART
format http://purl.org/coar/resource_type/c_6501
status_str publishedVersion
dc.identifier.issn.none.fl_str_mv 01205609
dc.identifier.uri.none.fl_str_mv https://repositorio.escuelaing.edu.co/handle/001/1903
identifier_str_mv 01205609
url https://repositorio.escuelaing.edu.co/handle/001/1903
dc.language.iso.spa.fl_str_mv spa
language spa
dc.relation.citationendpage.spa.fl_str_mv 60
dc.relation.citationissue.spa.fl_str_mv 3
dc.relation.citationstartpage.spa.fl_str_mv 54
dc.relation.citationvolume.spa.fl_str_mv 29
dc.relation.indexed.spa.fl_str_mv N/A
dc.relation.ispartofjournal.spa.fl_str_mv Ingeniería e Investigación
dc.relation.references.spa.fl_str_mv Chomsky, N., Knowledge of Language: Its Nature, Origin, and Use., Praeger, 1986.
Clark, A., Unsupervised Language Acquisition: Theory and Practice., Tesis presentada a la Universidad Génova, para optar al grado de Doctor of Philosophy, Dicembre, 2002.
Parekh, R., Honavar, V., Grammar inference, automata induction, and language acquisition., 2000.
Navigli, R., Velardi, P., Gangemi, A., Ontology learning and its application to automated terminology translation., IEEE Intelligent Systems, Vol. 18, No. 1, 2003, pp. 22­31.
Zhou, L., Ontology learning: state of the art and open issues., Information Technology and Management archive, Vol. 8 , No. 3, September, 2007, pp. 241­252.
Church, K. W., Mercer, R. L., Introduction to the special issue on computational linguistics using large corpora., Comput. Linguist., Vol. 19, No. 1, 1993, pp. 1­24.
Marianne Hundt, N. N., Biewer, C., Corpus Linguistics and the Web., Language and Computers 59, Kenilworth: Rodopi, 2007.
Keller, F., Lapata, M., Using the web to obtain frequencies for unseen bigrams., Comput. Linguist., Vol. 29, No. 3, 2003, pp. 459­484.
Kilgarriff, A., Grefenstette, G., Introduction to the special issue on the web as corpus., Computational Linguistics, Vol. 29, 2003, pp. 333­347.
Miller, R. C., Bharat, K., Sphinx: a framework for creating personal, site-specific web crawlers., in WWW7: Proceedings of the seventh international conference on World Wide Web 7, (Amsterdam, The Netherlands, The Netherlands), Elsevier Science Publishers B. V., 1998., pp. 119­130.
Kehoe, A. R., Webcorp: Applying the web to linguistics and linguistics to the web., in WWW2002 Conference, Honolulu, Hawaii, 2002.
Mattson, G., Sanders, B. A., Massingill. B. L., Patterns for Parallel Programming., Addison-Wesley Professional, 2004.
Krishnamurthy, A., Yelick, K., Optimizing parallel programs with explicit synchronization., SIGPLAN Not. 30, 1995, pp. 96-204.
Gelbukh, A., Sidorov, G., Procesamiento automático del español con enfoque en recursos léxicos grandes., IPN, Mexico, 2006.
dc.rights.coar.fl_str_mv http://purl.org/coar/access_right/c_abf2
dc.rights.uri.spa.fl_str_mv https://creativecommons.org/licenses/by/4.0/
dc.rights.accessrights.spa.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.creativecommons.spa.fl_str_mv Atribución 4.0 Internacional (CC BY 4.0)
rights_invalid_str_mv https://creativecommons.org/licenses/by/4.0/
Atribución 4.0 Internacional (CC BY 4.0)
http://purl.org/coar/access_right/c_abf2
eu_rights_str_mv openAccess
dc.format.extent.spa.fl_str_mv 7 páginas.
dc.format.mimetype.spa.fl_str_mv application/pdf
dc.publisher.spa.fl_str_mv Scielo
dc.publisher.place.spa.fl_str_mv Colombia
dc.source.spa.fl_str_mv http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-56092009000300009
institution Escuela Colombiana de Ingeniería Julio Garavito
bitstream.url.fl_str_mv https://repositorio.escuelaing.edu.co/bitstream/001/1903/1/Sistema%20de%20extracci%c3%b3n%20de%20cuerpos%20de%20texto%20de%20la%20web%20para%20tareas.pdf
https://repositorio.escuelaing.edu.co/bitstream/001/1903/2/license.txt
https://repositorio.escuelaing.edu.co/bitstream/001/1903/3/Sistema%20de%20extracci%c3%b3n%20de%20cuerpos%20de%20texto%20de%20la%20web%20para%20tareas.pdf.txt
https://repositorio.escuelaing.edu.co/bitstream/001/1903/4/Sistema%20de%20extracci%c3%b3n%20de%20cuerpos%20de%20texto%20de%20la%20web%20para%20tareas.pdf.jpg
bitstream.checksum.fl_str_mv 68fef37e1d008b363507ea2194d3f46f
5a7ca94c2e5326ee169f979d71d0f06e
5f890dd4e5a246ce5b96af407099b59f
9262798f4f19aec6dc268645facea23f
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio Escuela Colombiana de Ingeniería Julio Garavito
repository.mail.fl_str_mv repositorio.eci@escuelaing.edu.co
_version_ 1814355630326022144
spelling Cadavid Rengifo, Héctor Fabioa7c977901db3a9e538ba765ea21c10b3600Gómez Perdomo, Jonatan2f9d2cf2487ee9d391eb9f4ab72124ed600Informática2021-12-04T16:03:44Z2021-12-04T16:03:44Z200901205609https://repositorio.escuelaing.edu.co/handle/001/1903En este artículo se describe un sistema desarrollado para la extracción de grandes cuerpos de texto de Internet, teniendo como motivación el valor que ofrecen los ejemplos de lenguaje natural disponibles en la red para las tareas de aprendizaje no supervisado de dichos naturales, dado por características como su enorme volumen, permanente actualización respecto de las alteraciones del lenguaje, y bajo costo, en tiempo y recursos, en cuanto a los mecanismos tradicionales de construcción de corpus para esas tareas de aprendizaje. Se presentan las estrategias incorporadas al sistema con el fin de maximizar el aprovechamiento de los recursos de hardware y así reducir los tiempos de extracción, al igual que se presentan las características de extensibilidad para los formatos soportados, y adaptabilidad respecto a la manera como el sistema limpia los contenidos para obtener muestras de lenguaje natural puras. Al final del artículo se presentan los resultados experimentales obtenidos con uno de los dominios de contenido en español más grande de Internet: es.wikipedia.org, a través de los cuales se concluye sobre la validez y aplicabilidad de un corpus extraído directamente de la Internet para un eventual proceso de aprendizaje de morfología o sintaxis.Internet content, used as text corpus for natural language learning, offers important characteristics for such task, like its huge volume, being permanently up-to-date with linguistic variants and having low time and resource costs regarding the traditional way that text is built for natural language machine learning tasks. This paper describes a system for the automatic extraction of large bodies of text from the Internet as a valuable tool for such learning tasks. A concurrent programming-based, hardware-use optimisation strategy significantly improving extraction performance is also presented. The strategies incorporated into the system for maximising hardware resource exploitation, thereby reducing extraction time are presented, as are extendibility (supporting digital-content formats) and adaptability (regarding how the system cleanses content for obtaining pure natural language samples). The experimental results obtained after processing one of the biggest Spanish domains on the internet, are presented (i.e. es.wikipedia.org). Such results are used for presenting initial conclusions about the validity and applicability of corpus directly extracted from Internet as morphological or syntactical learning input.7 páginas.application/pdfspaScieloColombiahttps://creativecommons.org/licenses/by/4.0/info:eu-repo/semantics/openAccessAtribución 4.0 Internacional (CC BY 4.0)http://purl.org/coar/access_right/c_abf2http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-56092009000300009Sistema de extracción de cuerpos de texto de la web para tareas lingüísticasArtículo de revistainfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_6501http://purl.org/coar/resource_type/c_2df8fbb1Textinfo:eu-repo/semantics/articlehttp://purl.org/redcol/resource_type/ARThttp://purl.org/coar/version/c_970fb48d4fbd8a856035429N/AIngeniería e InvestigaciónChomsky, N., Knowledge of Language: Its Nature, Origin, and Use., Praeger, 1986.Clark, A., Unsupervised Language Acquisition: Theory and Practice., Tesis presentada a la Universidad Génova, para optar al grado de Doctor of Philosophy, Dicembre, 2002.Parekh, R., Honavar, V., Grammar inference, automata induction, and language acquisition., 2000.Navigli, R., Velardi, P., Gangemi, A., Ontology learning and its application to automated terminology translation., IEEE Intelligent Systems, Vol. 18, No. 1, 2003, pp. 22­31.Zhou, L., Ontology learning: state of the art and open issues., Information Technology and Management archive, Vol. 8 , No. 3, September, 2007, pp. 241­252.Church, K. W., Mercer, R. L., Introduction to the special issue on computational linguistics using large corpora., Comput. Linguist., Vol. 19, No. 1, 1993, pp. 1­24.Marianne Hundt, N. N., Biewer, C., Corpus Linguistics and the Web., Language and Computers 59, Kenilworth: Rodopi, 2007.Keller, F., Lapata, M., Using the web to obtain frequencies for unseen bigrams., Comput. Linguist., Vol. 29, No. 3, 2003, pp. 459­484.Kilgarriff, A., Grefenstette, G., Introduction to the special issue on the web as corpus., Computational Linguistics, Vol. 29, 2003, pp. 333­347.Miller, R. C., Bharat, K., Sphinx: a framework for creating personal, site-specific web crawlers., in WWW7: Proceedings of the seventh international conference on World Wide Web 7, (Amsterdam, The Netherlands, The Netherlands), Elsevier Science Publishers B. V., 1998., pp. 119­130.Kehoe, A. R., Webcorp: Applying the web to linguistics and linguistics to the web., in WWW2002 Conference, Honolulu, Hawaii, 2002.Mattson, G., Sanders, B. A., Massingill. B. L., Patterns for Parallel Programming., Addison-Wesley Professional, 2004.Krishnamurthy, A., Yelick, K., Optimizing parallel programs with explicit synchronization., SIGPLAN Not. 30, 1995, pp. 96-204.Gelbukh, A., Sidorov, G., Procesamiento automático del español con enfoque en recursos léxicos grandes., IPN, Mexico, 2006.corpus webcrawleraprendizaje no supervisado de lenguajesprogramación concurrenteweb corpuscrawlerunsupervised language learningconcurrent programmingORIGINALSistema de extracción de cuerpos de texto de la web para tareas.pdfSistema de extracción de cuerpos de texto de la web para tareas.pdfArtículo principalapplication/pdf578949https://repositorio.escuelaing.edu.co/bitstream/001/1903/1/Sistema%20de%20extracci%c3%b3n%20de%20cuerpos%20de%20texto%20de%20la%20web%20para%20tareas.pdf68fef37e1d008b363507ea2194d3f46fMD51metadata only accessLICENSElicense.txtlicense.txttext/plain; charset=utf-81881https://repositorio.escuelaing.edu.co/bitstream/001/1903/2/license.txt5a7ca94c2e5326ee169f979d71d0f06eMD52open accessTEXTSistema de extracción de cuerpos de texto de la web para tareas.pdf.txtSistema de extracción de cuerpos de texto de la web para tareas.pdf.txtExtracted texttext/plain32247https://repositorio.escuelaing.edu.co/bitstream/001/1903/3/Sistema%20de%20extracci%c3%b3n%20de%20cuerpos%20de%20texto%20de%20la%20web%20para%20tareas.pdf.txt5f890dd4e5a246ce5b96af407099b59fMD53open accessTHUMBNAILSistema de extracción de cuerpos de texto de la web para tareas.pdf.jpgSistema de extracción de cuerpos de texto de la web para tareas.pdf.jpgGenerated Thumbnailimage/jpeg15743https://repositorio.escuelaing.edu.co/bitstream/001/1903/4/Sistema%20de%20extracci%c3%b3n%20de%20cuerpos%20de%20texto%20de%20la%20web%20para%20tareas.pdf.jpg9262798f4f19aec6dc268645facea23fMD54open access001/1903oai:repositorio.escuelaing.edu.co:001/19032021-12-05 03:02:03.784metadata only accessRepositorio Escuela Colombiana de Ingeniería Julio Garavitorepositorio.eci@escuelaing.edu.coU0kgVVNURUQgSEFDRSBQQVJURSBERUwgR1JVUE8gREUgUEFSRVMgRVZBTFVBRE9SRVMgREUgTEEgQ09MRUNDScOTTiAiUEVFUiBSRVZJRVciLCBPTUlUQSBFU1RBIExJQ0VOQ0lBLgoKQXV0b3Jpem8gYSBsYSBFc2N1ZWxhIENvbG9tYmlhbmEgZGUgSW5nZW5pZXLDrWEgSnVsaW8gR2FyYXZpdG8gcGFyYSBwdWJsaWNhciBlbCB0cmFiYWpvIGRlIGdyYWRvLCBhcnTDrWN1bG8sIHZpZGVvLCAKY29uZmVyZW5jaWEsIGxpYnJvLCBpbWFnZW4sIGZvdG9ncmFmw61hLCBhdWRpbywgcHJlc2VudGFjacOzbiB1IG90cm8gKGVuICAgIGFkZWxhbnRlIGRvY3VtZW50bykgcXVlIGVuIGxhIGZlY2hhIAplbnRyZWdvIGVuIGZvcm1hdG8gZGlnaXRhbCwgeSBsZSBwZXJtaXRvIGRlIGZvcm1hIGluZGVmaW5pZGEgcXVlIGxvIHB1YmxpcXVlIGVuIGVsIHJlcG9zaXRvcmlvIGluc3RpdHVjaW9uYWwsIAplbiBsb3MgdMOpcm1pbm9zIGVzdGFibGVjaWRvcyBlbiBsYSBMZXkgMjMgZGUgMTk4MiwgbGEgTGV5IDQ0IGRlIDE5OTMsIHkgZGVtw6FzIGxleWVzIHkganVyaXNwcnVkZW5jaWEgdmlnZW50ZQphbCByZXNwZWN0bywgcGFyYSBmaW5lcyBlZHVjYXRpdm9zIHkgbm8gbHVjcmF0aXZvcy4gRXN0YSBhdXRvcml6YWNpw7NuIGVzIHbDoWxpZGEgcGFyYSBsYXMgZmFjdWx0YWRlcyB5IGRlcmVjaG9zIGRlIAp1c28gc29icmUgbGEgb2JyYSBlbiBmb3JtYXRvIGRpZ2l0YWwsIGVsZWN0csOzbmljbywgdmlydHVhbDsgeSBwYXJhIHVzb3MgZW4gcmVkZXMsIGludGVybmV0LCBleHRyYW5ldCwgeSBjdWFscXVpZXIgCmZvcm1hdG8gbyBtZWRpbyBjb25vY2lkbyBvIHBvciBjb25vY2VyLgpFbiBtaSBjYWxpZGFkIGRlIGF1dG9yLCBleHByZXNvIHF1ZSBlbCBkb2N1bWVudG8gb2JqZXRvIGRlIGxhIHByZXNlbnRlIGF1dG9yaXphY2nDs24gZXMgb3JpZ2luYWwgeSBsbyBlbGFib3LDqSBzaW4gCnF1ZWJyYW50YXIgbmkgc3VwbGFudGFyIGxvcyBkZXJlY2hvcyBkZSBhdXRvciBkZSB0ZXJjZXJvcy4gUG9yIGxvIHRhbnRvLCBlcyBkZSBtaSBleGNsdXNpdmEgYXV0b3LDrWEgeSwgZW4gY29uc2VjdWVuY2lhLCAKdGVuZ28gbGEgdGl0dWxhcmlkYWQgc29icmUgw6lsLiBFbiBjYXNvIGRlIHF1ZWphIG8gYWNjacOzbiBwb3IgcGFydGUgZGUgdW4gdGVyY2VybyByZWZlcmVudGUgYSBsb3MgZGVyZWNob3MgZGUgYXV0b3Igc29icmUgCmVsIGRvY3VtZW50byBlbiBjdWVzdGnDs24sIGFzdW1pcsOpIGxhIHJlc3BvbnNhYmlsaWRhZCB0b3RhbCB5IHNhbGRyw6kgZW4gZGVmZW5zYSBkZSBsb3MgZGVyZWNob3MgYXF1w60gYXV0b3JpemFkb3MuIEVzdG8gCnNpZ25pZmljYSBxdWUsIHBhcmEgdG9kb3MgbG9zIGVmZWN0b3MsIGxhIEVzY3VlbGEgYWN0w7phIGNvbW8gdW4gdGVyY2VybyBkZSBidWVuYSBmZS4KVG9kYSBwZXJzb25hIHF1ZSBjb25zdWx0ZSBlbCBSZXBvc2l0b3JpbyBJbnN0aXR1Y2lvbmFsIGRlIGxhIEVzY3VlbGEsIGVsIENhdMOhbG9nbyBlbiBsw61uZWEgdSBvdHJvIG1lZGlvIGVsZWN0csOzbmljbywgCnBvZHLDoSBjb3BpYXIgYXBhcnRlcyBkZWwgdGV4dG8sIGNvbiBlbCBjb21wcm9taXNvIGRlIGNpdGFyIHNpZW1wcmUgbGEgZnVlbnRlLCBsYSBjdWFsIGluY2x1eWUgZWwgdMOtdHVsbyBkZWwgdHJhYmFqbyB5IGVsIAphdXRvci5Fc3RhIGF1dG9yaXphY2nDs24gbm8gaW1wbGljYSByZW51bmNpYSBhIGxhIGZhY3VsdGFkIHF1ZSB0ZW5nbyBkZSBwdWJsaWNhciB0b3RhbCBvIHBhcmNpYWxtZW50ZSBsYSBvYnJhIGVuIG90cm9zIAptZWRpb3MuRXN0YSBhdXRvcml6YWNpw7NuIGVzdMOhIHJlc3BhbGRhZGEgcG9yIGxhcyBmaXJtYXMgZGVsIChsb3MpIGF1dG9yKGVzKSBkZWwgZG9jdW1lbnRvLiAKU8OtIGF1dG9yaXpvIChhbWJvcykK