Crawler para la Deep Web

Hoy en día la gran mayoría del tránsito de internet que ocurre en el mundo es a través de la world wide web. Para navegar a través de la web la manera más común y práctica es a través de navegadores tales como Google o Yahoo!. Sin embargo, estos motores de búsqueda no siempre logran indexar e identi...

Full description

Autores:
Acuña Silva, Cristian Bernardo
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
2024
Institución:
Universidad de los Andes
Repositorio:
Séneca: repositorio Uniandes
Idioma:
spa
OAI Identifier:
oai:repositorio.uniandes.edu.co:1992/74302
Acceso en línea:
https://hdl.handle.net/1992/74302
Palabra clave:
Deep web
Crawler
Ingeniería
Rights
openAccess
License
http://creativecommons.org/licenses/by-nc-nd/4.0/
id UNIANDES2_05e96d7dd9f74ad9b930afce55f3a6d6
oai_identifier_str oai:repositorio.uniandes.edu.co:1992/74302
network_acronym_str UNIANDES2
network_name_str Séneca: repositorio Uniandes
repository_id_str
dc.title.spa.fl_str_mv Crawler para la Deep Web
title Crawler para la Deep Web
spellingShingle Crawler para la Deep Web
Deep web
Crawler
Ingeniería
title_short Crawler para la Deep Web
title_full Crawler para la Deep Web
title_fullStr Crawler para la Deep Web
title_full_unstemmed Crawler para la Deep Web
title_sort Crawler para la Deep Web
dc.creator.fl_str_mv Acuña Silva, Cristian Bernardo
dc.contributor.advisor.none.fl_str_mv Donoso Meisel, Yezyd Enrique
dc.contributor.author.none.fl_str_mv Acuña Silva, Cristian Bernardo
dc.subject.keyword.eng.fl_str_mv Deep web
Crawler
topic Deep web
Crawler
Ingeniería
dc.subject.themes.spa.fl_str_mv Ingeniería
description Hoy en día la gran mayoría del tránsito de internet que ocurre en el mundo es a través de la world wide web. Para navegar a través de la web la manera más común y práctica es a través de navegadores tales como Google o Yahoo!. Sin embargo, estos motores de búsqueda no siempre logran indexar e identificar los dominios con información valiosa, cuando esto ocurre consideramos que la información se encuentra en la Deep web. Este proyecto tiene como objetivo proponer un crawler que pueda indexar e identificar esta información de la Deep web para que los usuarios puedan tener acceso a la mayor cantidad de información posible.
publishDate 2024
dc.date.accessioned.none.fl_str_mv 2024-06-13T16:53:33Z
dc.date.available.none.fl_str_mv 2024-06-13T16:53:33Z
dc.date.issued.none.fl_str_mv 2024-06-04
dc.type.none.fl_str_mv Trabajo de grado - Pregrado
dc.type.driver.none.fl_str_mv info:eu-repo/semantics/bachelorThesis
dc.type.version.none.fl_str_mv info:eu-repo/semantics/acceptedVersion
dc.type.coar.none.fl_str_mv http://purl.org/coar/resource_type/c_7a1f
dc.type.content.none.fl_str_mv Text
dc.type.redcol.none.fl_str_mv http://purl.org/redcol/resource_type/TP
format http://purl.org/coar/resource_type/c_7a1f
status_str acceptedVersion
dc.identifier.uri.none.fl_str_mv https://hdl.handle.net/1992/74302
dc.identifier.instname.none.fl_str_mv instname:Universidad de los Andes
dc.identifier.reponame.none.fl_str_mv reponame:Repositorio Institucional Séneca
dc.identifier.repourl.none.fl_str_mv repourl:https://repositorio.uniandes.edu.co/
url https://hdl.handle.net/1992/74302
identifier_str_mv instname:Universidad de los Andes
reponame:Repositorio Institucional Séneca
repourl:https://repositorio.uniandes.edu.co/
dc.language.iso.none.fl_str_mv spa
language spa
dc.relation.references.none.fl_str_mv Bergman, M. K., (Agosto 2001), White Paper: The Deep Web: Surfacing Hidden Value, Volume 7, Issue 1. Recuperado de : https://quod.lib.umich.edu/cgi/t/text/idx/j/jep/3336451.0007.104/--whitepaper-the-deep-websurfacing-hidden-value?rgn=main;view=fulltext
Qinghua Z., Zhaohui W., Xiaocheng C., Lu J., Jun L., (2013), Information Systems, Volume 38, Issue 6, P. 801-819, Learning to crawl deep web. Recuperado de : https://www.sciencedirect.com/science/article/abs/pii/S0306437913000288 (Glenda Brown, 2004)
Brown G, Jermey J., ( 2004). WEBSITE INDEXING, Adelaide, South Australia: Auslib Press. Recuperado de : https://citeseerx.ist.psu.edu/document?repid=rep1&type=pdf&doi 3963370a25a094b11b595c8ffb2e19a1134ea72b
M, P. S., Raja, S. V., Arkoli, F. K., & M, J. (2011 November). A Survey of Web Crawler Algorithms. IJCSI International Journal of Computer Science Issues, 309-313. Recuperado de : https://citeseerx.ist.psu.edu/document?repid=rep1&type=pdf&doi=9eb15cbf5a07e425bef664fa3366f9885516051b#page=328
Lu, J., Li, D. Estimating deep web data source size by capture–recapture method. Inf Retrieval 13, 70–95 (2010). Recuperado de : https://doi.org/10.1007/s10791-009-9107-y
HE, B., PATEL, M., ZHANG, Z., & CHANG, K. C.-C. (2007). ACCESSING THE DEEP WEB. COMMUNICATIONS OF THE ACM/Vol. 50, No. 5, 95-101. Recuperado de : https://dl.acm.org/doi/pdf/10.1145/1230819.1241670
dc.rights.uri.none.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/4.0/
dc.rights.accessrights.none.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.coar.none.fl_str_mv http://purl.org/coar/access_right/c_abf2
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-nd/4.0/
http://purl.org/coar/access_right/c_abf2
eu_rights_str_mv openAccess
dc.format.extent.none.fl_str_mv 13 páginas
dc.format.mimetype.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidad de los Andes
dc.publisher.program.none.fl_str_mv Ingeniería de Sistemas y Computación
dc.publisher.faculty.none.fl_str_mv Facultad de Ingeniería
dc.publisher.department.none.fl_str_mv Departamento de Ingeniería de Sistemas y Computación
publisher.none.fl_str_mv Universidad de los Andes
institution Universidad de los Andes
bitstream.url.fl_str_mv https://repositorio.uniandes.edu.co/bitstreams/df872579-19cc-43e7-8555-e4170dfc554a/download
https://repositorio.uniandes.edu.co/bitstreams/8d8159ee-aa6d-4798-b5c6-ac2bb4898c75/download
https://repositorio.uniandes.edu.co/bitstreams/a267a33d-d7b4-4cfe-a130-c3bbdea07d28/download
https://repositorio.uniandes.edu.co/bitstreams/64993541-4984-4715-b42c-940672b04351/download
https://repositorio.uniandes.edu.co/bitstreams/ee29cf68-3519-4e8a-9c93-72e851cd0535/download
https://repositorio.uniandes.edu.co/bitstreams/65db9fe9-adb7-43fe-b3f4-1d1bea90d539/download
https://repositorio.uniandes.edu.co/bitstreams/000f3aac-4718-425b-8213-1b1d0e623a33/download
bitstream.checksum.fl_str_mv ef5ae4fac97a2ef7121930892dce7fbf
14ac72e51d3c06b9234ed8e6132a6a9b
ae9e573a68e7f92501b6913cc846c39f
d3f0134ba98ef9c77bb00092b0deb587
c572c565856fdf8ae083b74491f1ec92
e3853b8ec7a62cd0bbe1521e22090915
1408d7162d467ae1afacdc3c79e32335
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio institucional Séneca
repository.mail.fl_str_mv adminrepositorio@uniandes.edu.co
_version_ 1812133882892386304
spelling Donoso Meisel, Yezyd Enriquevirtual::18181-1Acuña Silva, Cristian Bernardo2024-06-13T16:53:33Z2024-06-13T16:53:33Z2024-06-04https://hdl.handle.net/1992/74302instname:Universidad de los Andesreponame:Repositorio Institucional Sénecarepourl:https://repositorio.uniandes.edu.co/Hoy en día la gran mayoría del tránsito de internet que ocurre en el mundo es a través de la world wide web. Para navegar a través de la web la manera más común y práctica es a través de navegadores tales como Google o Yahoo!. Sin embargo, estos motores de búsqueda no siempre logran indexar e identificar los dominios con información valiosa, cuando esto ocurre consideramos que la información se encuentra en la Deep web. Este proyecto tiene como objetivo proponer un crawler que pueda indexar e identificar esta información de la Deep web para que los usuarios puedan tener acceso a la mayor cantidad de información posible.Pregrado13 páginasapplication/pdfspaUniversidad de los AndesIngeniería de Sistemas y ComputaciónFacultad de IngenieríaDepartamento de Ingeniería de Sistemas y Computaciónhttp://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Crawler para la Deep WebTrabajo de grado - Pregradoinfo:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/acceptedVersionhttp://purl.org/coar/resource_type/c_7a1fTexthttp://purl.org/redcol/resource_type/TPDeep webCrawlerIngenieríaBergman, M. K., (Agosto 2001), White Paper: The Deep Web: Surfacing Hidden Value, Volume 7, Issue 1. Recuperado de : https://quod.lib.umich.edu/cgi/t/text/idx/j/jep/3336451.0007.104/--whitepaper-the-deep-websurfacing-hidden-value?rgn=main;view=fulltextQinghua Z., Zhaohui W., Xiaocheng C., Lu J., Jun L., (2013), Information Systems, Volume 38, Issue 6, P. 801-819, Learning to crawl deep web. Recuperado de : https://www.sciencedirect.com/science/article/abs/pii/S0306437913000288 (Glenda Brown, 2004)Brown G, Jermey J., ( 2004). WEBSITE INDEXING, Adelaide, South Australia: Auslib Press. Recuperado de : https://citeseerx.ist.psu.edu/document?repid=rep1&type=pdf&doi 3963370a25a094b11b595c8ffb2e19a1134ea72bM, P. S., Raja, S. V., Arkoli, F. K., & M, J. (2011 November). A Survey of Web Crawler Algorithms. IJCSI International Journal of Computer Science Issues, 309-313. Recuperado de : https://citeseerx.ist.psu.edu/document?repid=rep1&type=pdf&doi=9eb15cbf5a07e425bef664fa3366f9885516051b#page=328Lu, J., Li, D. Estimating deep web data source size by capture–recapture method. Inf Retrieval 13, 70–95 (2010). Recuperado de : https://doi.org/10.1007/s10791-009-9107-yHE, B., PATEL, M., ZHANG, Z., & CHANG, K. C.-C. (2007). ACCESSING THE DEEP WEB. COMMUNICATIONS OF THE ACM/Vol. 50, No. 5, 95-101. Recuperado de : https://dl.acm.org/doi/pdf/10.1145/1230819.1241670201729008Publicationhttps://scholar.google.es/citations?user=Razvs2MAAAAJvirtual::18181-10000-0003-1659-1522virtual::18181-1https://scienti.minciencias.gov.co/cvlac/visualizador/generarCurriculoCv.do?cod_rh=0000094706virtual::18181-16b9d423b-11e8-4930-b0d2-061b34e9806bvirtual::18181-16b9d423b-11e8-4930-b0d2-061b34e9806bvirtual::18181-1ORIGINALCrawler Para la Deep Web.pdfCrawler Para la Deep Web.pdfapplication/pdf839771https://repositorio.uniandes.edu.co/bitstreams/df872579-19cc-43e7-8555-e4170dfc554a/downloadef5ae4fac97a2ef7121930892dce7fbfMD52autorizacion tesis.pdfautorizacion tesis.pdfHIDEapplication/pdf273986https://repositorio.uniandes.edu.co/bitstreams/8d8159ee-aa6d-4798-b5c6-ac2bb4898c75/download14ac72e51d3c06b9234ed8e6132a6a9bMD51LICENSElicense.txtlicense.txttext/plain; charset=utf-82535https://repositorio.uniandes.edu.co/bitstreams/a267a33d-d7b4-4cfe-a130-c3bbdea07d28/downloadae9e573a68e7f92501b6913cc846c39fMD53TEXTCrawler Para la Deep Web.pdf.txtCrawler Para la Deep Web.pdf.txtExtracted texttext/plain24506https://repositorio.uniandes.edu.co/bitstreams/64993541-4984-4715-b42c-940672b04351/downloadd3f0134ba98ef9c77bb00092b0deb587MD54autorizacion tesis.pdf.txtautorizacion tesis.pdf.txtExtracted texttext/plain2026https://repositorio.uniandes.edu.co/bitstreams/ee29cf68-3519-4e8a-9c93-72e851cd0535/downloadc572c565856fdf8ae083b74491f1ec92MD56THUMBNAILCrawler Para la Deep Web.pdf.jpgCrawler Para la Deep Web.pdf.jpgGenerated Thumbnailimage/jpeg5938https://repositorio.uniandes.edu.co/bitstreams/65db9fe9-adb7-43fe-b3f4-1d1bea90d539/downloade3853b8ec7a62cd0bbe1521e22090915MD55autorizacion tesis.pdf.jpgautorizacion tesis.pdf.jpgGenerated Thumbnailimage/jpeg11099https://repositorio.uniandes.edu.co/bitstreams/000f3aac-4718-425b-8213-1b1d0e623a33/download1408d7162d467ae1afacdc3c79e32335MD571992/74302oai:repositorio.uniandes.edu.co:1992/743022024-06-14 03:02:55.005http://creativecommons.org/licenses/by-nc-nd/4.0/open.accesshttps://repositorio.uniandes.edu.coRepositorio institucional Sénecaadminrepositorio@uniandes.edu.coPGgzPjxzdHJvbmc+RGVzY2FyZ28gZGUgUmVzcG9uc2FiaWxpZGFkIC0gTGljZW5jaWEgZGUgQXV0b3JpemFjacOzbjwvc3Ryb25nPjwvaDM+CjxwPjxzdHJvbmc+UG9yIGZhdm9yIGxlZXIgYXRlbnRhbWVudGUgZXN0ZSBkb2N1bWVudG8gcXVlIHBlcm1pdGUgYWwgUmVwb3NpdG9yaW8gSW5zdGl0dWNpb25hbCBTw6luZWNhIHJlcHJvZHVjaXIgeSBkaXN0cmlidWlyIGxvcyByZWN1cnNvcyBkZSBpbmZvcm1hY2nDs24gZGVwb3NpdGFkb3MgbWVkaWFudGUgbGEgYXV0b3JpemFjacOzbiBkZSBsb3Mgc2lndWllbnRlcyB0w6lybWlub3M6PC9zdHJvbmc+PC9wPgo8cD5Db25jZWRhIGxhIGxpY2VuY2lhIGRlIGRlcMOzc2l0byBlc3TDoW5kYXIgc2VsZWNjaW9uYW5kbyBsYSBvcGNpw7NuIDxzdHJvbmc+J0FjZXB0YXIgbG9zIHTDqXJtaW5vcyBhbnRlcmlvcm1lbnRlIGRlc2NyaXRvcyc8L3N0cm9uZz4geSBjb250aW51YXIgZWwgcHJvY2VzbyBkZSBlbnbDrW8gbWVkaWFudGUgZWwgYm90w7NuIDxzdHJvbmc+J1NpZ3VpZW50ZScuPC9zdHJvbmc+PC9wPgo8aHI+CjxwPllvLCBlbiBtaSBjYWxpZGFkIGRlIGF1dG9yIGRlbCB0cmFiYWpvIGRlIHRlc2lzLCBtb25vZ3JhZsOtYSBvIHRyYWJham8gZGUgZ3JhZG8sIGhhZ28gZW50cmVnYSBkZWwgZWplbXBsYXIgcmVzcGVjdGl2byB5IGRlIHN1cyBhbmV4b3MgZGUgc2VyIGVsIGNhc28sIGVuIGZvcm1hdG8gZGlnaXRhbCB5L28gZWxlY3Ryw7NuaWNvIHkgYXV0b3Jpem8gYSBsYSBVbml2ZXJzaWRhZCBkZSBsb3MgQW5kZXMgcGFyYSBxdWUgcmVhbGljZSBsYSBwdWJsaWNhY2nDs24gZW4gZWwgU2lzdGVtYSBkZSBCaWJsaW90ZWNhcyBvIGVuIGN1YWxxdWllciBvdHJvIHNpc3RlbWEgbyBiYXNlIGRlIGRhdG9zIHByb3BpbyBvIGFqZW5vIGEgbGEgVW5pdmVyc2lkYWQgeSBwYXJhIHF1ZSBlbiBsb3MgdMOpcm1pbm9zIGVzdGFibGVjaWRvcyBlbiBsYSBMZXkgMjMgZGUgMTk4MiwgTGV5IDQ0IGRlIDE5OTMsIERlY2lzacOzbiBBbmRpbmEgMzUxIGRlIDE5OTMsIERlY3JldG8gNDYwIGRlIDE5OTUgeSBkZW3DoXMgbm9ybWFzIGdlbmVyYWxlcyBzb2JyZSBsYSBtYXRlcmlhLCB1dGlsaWNlIGVuIHRvZGFzIHN1cyBmb3JtYXMsIGxvcyBkZXJlY2hvcyBwYXRyaW1vbmlhbGVzIGRlIHJlcHJvZHVjY2nDs24sIGNvbXVuaWNhY2nDs24gcMO6YmxpY2EsIHRyYW5zZm9ybWFjacOzbiB5IGRpc3RyaWJ1Y2nDs24gKGFscXVpbGVyLCBwcsOpc3RhbW8gcMO6YmxpY28gZSBpbXBvcnRhY2nDs24pIHF1ZSBtZSBjb3JyZXNwb25kZW4gY29tbyBjcmVhZG9yIGRlIGxhIG9icmEgb2JqZXRvIGRlbCBwcmVzZW50ZSBkb2N1bWVudG8uPC9wPgo8cD5MYSBwcmVzZW50ZSBhdXRvcml6YWNpw7NuIHNlIGVtaXRlIGVuIGNhbGlkYWQgZGUgYXV0b3IgZGUgbGEgb2JyYSBvYmpldG8gZGVsIHByZXNlbnRlIGRvY3VtZW50byB5IG5vIGNvcnJlc3BvbmRlIGEgY2VzacOzbiBkZSBkZXJlY2hvcywgc2lubyBhIGxhIGF1dG9yaXphY2nDs24gZGUgdXNvIGFjYWTDqW1pY28gZGUgY29uZm9ybWlkYWQgY29uIGxvIGFudGVyaW9ybWVudGUgc2XDsWFsYWRvLiBMYSBwcmVzZW50ZSBhdXRvcml6YWNpw7NuIHNlIGhhY2UgZXh0ZW5zaXZhIG5vIHNvbG8gYSBsYXMgZmFjdWx0YWRlcyB5IGRlcmVjaG9zIGRlIHVzbyBzb2JyZSBsYSBvYnJhIGVuIGZvcm1hdG8gbyBzb3BvcnRlIG1hdGVyaWFsLCBzaW5vIHRhbWJpw6luIHBhcmEgZm9ybWF0byBlbGVjdHLDs25pY28sIHkgZW4gZ2VuZXJhbCBwYXJhIGN1YWxxdWllciBmb3JtYXRvIGNvbm9jaWRvIG8gcG9yIGNvbm9jZXIuPC9wPgo8cD5FbCBhdXRvciwgbWFuaWZpZXN0YSBxdWUgbGEgb2JyYSBvYmpldG8gZGUgbGEgcHJlc2VudGUgYXV0b3JpemFjacOzbiBlcyBvcmlnaW5hbCB5IGxhIHJlYWxpesOzIHNpbiB2aW9sYXIgbyB1c3VycGFyIGRlcmVjaG9zIGRlIGF1dG9yIGRlIHRlcmNlcm9zLCBwb3IgbG8gdGFudG8sIGxhIG9icmEgZXMgZGUgc3UgZXhjbHVzaXZhIGF1dG9yw61hIHkgdGllbmUgbGEgdGl0dWxhcmlkYWQgc29icmUgbGEgbWlzbWEuPC9wPgo8cD5FbiBjYXNvIGRlIHByZXNlbnRhcnNlIGN1YWxxdWllciByZWNsYW1hY2nDs24gbyBhY2Npw7NuIHBvciBwYXJ0ZSBkZSB1biB0ZXJjZXJvIGVuIGN1YW50byBhIGxvcyBkZXJlY2hvcyBkZSBhdXRvciBzb2JyZSBsYSBvYnJhIGVuIGN1ZXN0acOzbiwgZWwgYXV0b3IgYXN1bWlyw6EgdG9kYSBsYSByZXNwb25zYWJpbGlkYWQsIHkgc2FsZHLDoSBkZSBkZWZlbnNhIGRlIGxvcyBkZXJlY2hvcyBhcXXDrSBhdXRvcml6YWRvcywgcGFyYSB0b2RvcyBsb3MgZWZlY3RvcyBsYSBVbml2ZXJzaWRhZCBhY3TDumEgY29tbyB1biB0ZXJjZXJvIGRlIGJ1ZW5hIGZlLjwvcD4KPHA+U2kgdGllbmUgYWxndW5hIGR1ZGEgc29icmUgbGEgbGljZW5jaWEsIHBvciBmYXZvciwgY29udGFjdGUgY29uIGVsIDxhIGhyZWY9Im1haWx0bzpiaWJsaW90ZWNhQHVuaWFuZGVzLmVkdS5jbyIgdGFyZ2V0PSJfYmxhbmsiPkFkbWluaXN0cmFkb3IgZGVsIFNpc3RlbWEuPC9hPjwvcD4K