Crawler para la Deep Web
Hoy en día la gran mayoría del tránsito de internet que ocurre en el mundo es a través de la world wide web. Para navegar a través de la web la manera más común y práctica es a través de navegadores tales como Google o Yahoo!. Sin embargo, estos motores de búsqueda no siempre logran indexar e identi...
- Autores:
-
Acuña Silva, Cristian Bernardo
- Tipo de recurso:
- Trabajo de grado de pregrado
- Fecha de publicación:
- 2024
- Institución:
- Universidad de los Andes
- Repositorio:
- Séneca: repositorio Uniandes
- Idioma:
- spa
- OAI Identifier:
- oai:repositorio.uniandes.edu.co:1992/74302
- Acceso en línea:
- https://hdl.handle.net/1992/74302
- Palabra clave:
- Deep web
Crawler
Ingeniería
- Rights
- openAccess
- License
- http://creativecommons.org/licenses/by-nc-nd/4.0/
id |
UNIANDES2_05e96d7dd9f74ad9b930afce55f3a6d6 |
---|---|
oai_identifier_str |
oai:repositorio.uniandes.edu.co:1992/74302 |
network_acronym_str |
UNIANDES2 |
network_name_str |
Séneca: repositorio Uniandes |
repository_id_str |
|
dc.title.spa.fl_str_mv |
Crawler para la Deep Web |
title |
Crawler para la Deep Web |
spellingShingle |
Crawler para la Deep Web Deep web Crawler Ingeniería |
title_short |
Crawler para la Deep Web |
title_full |
Crawler para la Deep Web |
title_fullStr |
Crawler para la Deep Web |
title_full_unstemmed |
Crawler para la Deep Web |
title_sort |
Crawler para la Deep Web |
dc.creator.fl_str_mv |
Acuña Silva, Cristian Bernardo |
dc.contributor.advisor.none.fl_str_mv |
Donoso Meisel, Yezyd Enrique |
dc.contributor.author.none.fl_str_mv |
Acuña Silva, Cristian Bernardo |
dc.subject.keyword.eng.fl_str_mv |
Deep web Crawler |
topic |
Deep web Crawler Ingeniería |
dc.subject.themes.spa.fl_str_mv |
Ingeniería |
description |
Hoy en día la gran mayoría del tránsito de internet que ocurre en el mundo es a través de la world wide web. Para navegar a través de la web la manera más común y práctica es a través de navegadores tales como Google o Yahoo!. Sin embargo, estos motores de búsqueda no siempre logran indexar e identificar los dominios con información valiosa, cuando esto ocurre consideramos que la información se encuentra en la Deep web. Este proyecto tiene como objetivo proponer un crawler que pueda indexar e identificar esta información de la Deep web para que los usuarios puedan tener acceso a la mayor cantidad de información posible. |
publishDate |
2024 |
dc.date.accessioned.none.fl_str_mv |
2024-06-13T16:53:33Z |
dc.date.available.none.fl_str_mv |
2024-06-13T16:53:33Z |
dc.date.issued.none.fl_str_mv |
2024-06-04 |
dc.type.none.fl_str_mv |
Trabajo de grado - Pregrado |
dc.type.driver.none.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
dc.type.version.none.fl_str_mv |
info:eu-repo/semantics/acceptedVersion |
dc.type.coar.none.fl_str_mv |
http://purl.org/coar/resource_type/c_7a1f |
dc.type.content.none.fl_str_mv |
Text |
dc.type.redcol.none.fl_str_mv |
http://purl.org/redcol/resource_type/TP |
format |
http://purl.org/coar/resource_type/c_7a1f |
status_str |
acceptedVersion |
dc.identifier.uri.none.fl_str_mv |
https://hdl.handle.net/1992/74302 |
dc.identifier.instname.none.fl_str_mv |
instname:Universidad de los Andes |
dc.identifier.reponame.none.fl_str_mv |
reponame:Repositorio Institucional Séneca |
dc.identifier.repourl.none.fl_str_mv |
repourl:https://repositorio.uniandes.edu.co/ |
url |
https://hdl.handle.net/1992/74302 |
identifier_str_mv |
instname:Universidad de los Andes reponame:Repositorio Institucional Séneca repourl:https://repositorio.uniandes.edu.co/ |
dc.language.iso.none.fl_str_mv |
spa |
language |
spa |
dc.relation.references.none.fl_str_mv |
Bergman, M. K., (Agosto 2001), White Paper: The Deep Web: Surfacing Hidden Value, Volume 7, Issue 1. Recuperado de : https://quod.lib.umich.edu/cgi/t/text/idx/j/jep/3336451.0007.104/--whitepaper-the-deep-websurfacing-hidden-value?rgn=main;view=fulltext Qinghua Z., Zhaohui W., Xiaocheng C., Lu J., Jun L., (2013), Information Systems, Volume 38, Issue 6, P. 801-819, Learning to crawl deep web. Recuperado de : https://www.sciencedirect.com/science/article/abs/pii/S0306437913000288 (Glenda Brown, 2004) Brown G, Jermey J., ( 2004). WEBSITE INDEXING, Adelaide, South Australia: Auslib Press. Recuperado de : https://citeseerx.ist.psu.edu/document?repid=rep1&type=pdf&doi 3963370a25a094b11b595c8ffb2e19a1134ea72b M, P. S., Raja, S. V., Arkoli, F. K., & M, J. (2011 November). A Survey of Web Crawler Algorithms. IJCSI International Journal of Computer Science Issues, 309-313. Recuperado de : https://citeseerx.ist.psu.edu/document?repid=rep1&type=pdf&doi=9eb15cbf5a07e425bef664fa3366f9885516051b#page=328 Lu, J., Li, D. Estimating deep web data source size by capture–recapture method. Inf Retrieval 13, 70–95 (2010). Recuperado de : https://doi.org/10.1007/s10791-009-9107-y HE, B., PATEL, M., ZHANG, Z., & CHANG, K. C.-C. (2007). ACCESSING THE DEEP WEB. COMMUNICATIONS OF THE ACM/Vol. 50, No. 5, 95-101. Recuperado de : https://dl.acm.org/doi/pdf/10.1145/1230819.1241670 |
dc.rights.uri.none.fl_str_mv |
http://creativecommons.org/licenses/by-nc-nd/4.0/ |
dc.rights.accessrights.none.fl_str_mv |
info:eu-repo/semantics/openAccess |
dc.rights.coar.none.fl_str_mv |
http://purl.org/coar/access_right/c_abf2 |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-nd/4.0/ http://purl.org/coar/access_right/c_abf2 |
eu_rights_str_mv |
openAccess |
dc.format.extent.none.fl_str_mv |
13 páginas |
dc.format.mimetype.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidad de los Andes |
dc.publisher.program.none.fl_str_mv |
Ingeniería de Sistemas y Computación |
dc.publisher.faculty.none.fl_str_mv |
Facultad de Ingeniería |
dc.publisher.department.none.fl_str_mv |
Departamento de Ingeniería de Sistemas y Computación |
publisher.none.fl_str_mv |
Universidad de los Andes |
institution |
Universidad de los Andes |
bitstream.url.fl_str_mv |
https://repositorio.uniandes.edu.co/bitstreams/df872579-19cc-43e7-8555-e4170dfc554a/download https://repositorio.uniandes.edu.co/bitstreams/8d8159ee-aa6d-4798-b5c6-ac2bb4898c75/download https://repositorio.uniandes.edu.co/bitstreams/a267a33d-d7b4-4cfe-a130-c3bbdea07d28/download https://repositorio.uniandes.edu.co/bitstreams/64993541-4984-4715-b42c-940672b04351/download https://repositorio.uniandes.edu.co/bitstreams/ee29cf68-3519-4e8a-9c93-72e851cd0535/download https://repositorio.uniandes.edu.co/bitstreams/65db9fe9-adb7-43fe-b3f4-1d1bea90d539/download https://repositorio.uniandes.edu.co/bitstreams/000f3aac-4718-425b-8213-1b1d0e623a33/download |
bitstream.checksum.fl_str_mv |
ef5ae4fac97a2ef7121930892dce7fbf 14ac72e51d3c06b9234ed8e6132a6a9b ae9e573a68e7f92501b6913cc846c39f d3f0134ba98ef9c77bb00092b0deb587 c572c565856fdf8ae083b74491f1ec92 e3853b8ec7a62cd0bbe1521e22090915 1408d7162d467ae1afacdc3c79e32335 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositorio institucional Séneca |
repository.mail.fl_str_mv |
adminrepositorio@uniandes.edu.co |
_version_ |
1812133882892386304 |
spelling |
Donoso Meisel, Yezyd Enriquevirtual::18181-1Acuña Silva, Cristian Bernardo2024-06-13T16:53:33Z2024-06-13T16:53:33Z2024-06-04https://hdl.handle.net/1992/74302instname:Universidad de los Andesreponame:Repositorio Institucional Sénecarepourl:https://repositorio.uniandes.edu.co/Hoy en día la gran mayoría del tránsito de internet que ocurre en el mundo es a través de la world wide web. Para navegar a través de la web la manera más común y práctica es a través de navegadores tales como Google o Yahoo!. Sin embargo, estos motores de búsqueda no siempre logran indexar e identificar los dominios con información valiosa, cuando esto ocurre consideramos que la información se encuentra en la Deep web. Este proyecto tiene como objetivo proponer un crawler que pueda indexar e identificar esta información de la Deep web para que los usuarios puedan tener acceso a la mayor cantidad de información posible.Pregrado13 páginasapplication/pdfspaUniversidad de los AndesIngeniería de Sistemas y ComputaciónFacultad de IngenieríaDepartamento de Ingeniería de Sistemas y Computaciónhttp://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Crawler para la Deep WebTrabajo de grado - Pregradoinfo:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/acceptedVersionhttp://purl.org/coar/resource_type/c_7a1fTexthttp://purl.org/redcol/resource_type/TPDeep webCrawlerIngenieríaBergman, M. K., (Agosto 2001), White Paper: The Deep Web: Surfacing Hidden Value, Volume 7, Issue 1. Recuperado de : https://quod.lib.umich.edu/cgi/t/text/idx/j/jep/3336451.0007.104/--whitepaper-the-deep-websurfacing-hidden-value?rgn=main;view=fulltextQinghua Z., Zhaohui W., Xiaocheng C., Lu J., Jun L., (2013), Information Systems, Volume 38, Issue 6, P. 801-819, Learning to crawl deep web. Recuperado de : https://www.sciencedirect.com/science/article/abs/pii/S0306437913000288 (Glenda Brown, 2004)Brown G, Jermey J., ( 2004). WEBSITE INDEXING, Adelaide, South Australia: Auslib Press. Recuperado de : https://citeseerx.ist.psu.edu/document?repid=rep1&type=pdf&doi 3963370a25a094b11b595c8ffb2e19a1134ea72bM, P. S., Raja, S. V., Arkoli, F. K., & M, J. (2011 November). A Survey of Web Crawler Algorithms. IJCSI International Journal of Computer Science Issues, 309-313. Recuperado de : https://citeseerx.ist.psu.edu/document?repid=rep1&type=pdf&doi=9eb15cbf5a07e425bef664fa3366f9885516051b#page=328Lu, J., Li, D. Estimating deep web data source size by capture–recapture method. Inf Retrieval 13, 70–95 (2010). Recuperado de : https://doi.org/10.1007/s10791-009-9107-yHE, B., PATEL, M., ZHANG, Z., & CHANG, K. C.-C. (2007). ACCESSING THE DEEP WEB. COMMUNICATIONS OF THE ACM/Vol. 50, No. 5, 95-101. Recuperado de : https://dl.acm.org/doi/pdf/10.1145/1230819.1241670201729008Publicationhttps://scholar.google.es/citations?user=Razvs2MAAAAJvirtual::18181-10000-0003-1659-1522virtual::18181-1https://scienti.minciencias.gov.co/cvlac/visualizador/generarCurriculoCv.do?cod_rh=0000094706virtual::18181-16b9d423b-11e8-4930-b0d2-061b34e9806bvirtual::18181-16b9d423b-11e8-4930-b0d2-061b34e9806bvirtual::18181-1ORIGINALCrawler Para la Deep Web.pdfCrawler Para la Deep Web.pdfapplication/pdf839771https://repositorio.uniandes.edu.co/bitstreams/df872579-19cc-43e7-8555-e4170dfc554a/downloadef5ae4fac97a2ef7121930892dce7fbfMD52autorizacion tesis.pdfautorizacion tesis.pdfHIDEapplication/pdf273986https://repositorio.uniandes.edu.co/bitstreams/8d8159ee-aa6d-4798-b5c6-ac2bb4898c75/download14ac72e51d3c06b9234ed8e6132a6a9bMD51LICENSElicense.txtlicense.txttext/plain; charset=utf-82535https://repositorio.uniandes.edu.co/bitstreams/a267a33d-d7b4-4cfe-a130-c3bbdea07d28/downloadae9e573a68e7f92501b6913cc846c39fMD53TEXTCrawler Para la Deep Web.pdf.txtCrawler Para la Deep Web.pdf.txtExtracted texttext/plain24506https://repositorio.uniandes.edu.co/bitstreams/64993541-4984-4715-b42c-940672b04351/downloadd3f0134ba98ef9c77bb00092b0deb587MD54autorizacion tesis.pdf.txtautorizacion tesis.pdf.txtExtracted texttext/plain2026https://repositorio.uniandes.edu.co/bitstreams/ee29cf68-3519-4e8a-9c93-72e851cd0535/downloadc572c565856fdf8ae083b74491f1ec92MD56THUMBNAILCrawler Para la Deep Web.pdf.jpgCrawler Para la Deep Web.pdf.jpgGenerated Thumbnailimage/jpeg5938https://repositorio.uniandes.edu.co/bitstreams/65db9fe9-adb7-43fe-b3f4-1d1bea90d539/downloade3853b8ec7a62cd0bbe1521e22090915MD55autorizacion tesis.pdf.jpgautorizacion tesis.pdf.jpgGenerated Thumbnailimage/jpeg11099https://repositorio.uniandes.edu.co/bitstreams/000f3aac-4718-425b-8213-1b1d0e623a33/download1408d7162d467ae1afacdc3c79e32335MD571992/74302oai:repositorio.uniandes.edu.co:1992/743022024-06-14 03:02:55.005http://creativecommons.org/licenses/by-nc-nd/4.0/open.accesshttps://repositorio.uniandes.edu.coRepositorio institucional Sénecaadminrepositorio@uniandes.edu.coPGgzPjxzdHJvbmc+RGVzY2FyZ28gZGUgUmVzcG9uc2FiaWxpZGFkIC0gTGljZW5jaWEgZGUgQXV0b3JpemFjacOzbjwvc3Ryb25nPjwvaDM+CjxwPjxzdHJvbmc+UG9yIGZhdm9yIGxlZXIgYXRlbnRhbWVudGUgZXN0ZSBkb2N1bWVudG8gcXVlIHBlcm1pdGUgYWwgUmVwb3NpdG9yaW8gSW5zdGl0dWNpb25hbCBTw6luZWNhIHJlcHJvZHVjaXIgeSBkaXN0cmlidWlyIGxvcyByZWN1cnNvcyBkZSBpbmZvcm1hY2nDs24gZGVwb3NpdGFkb3MgbWVkaWFudGUgbGEgYXV0b3JpemFjacOzbiBkZSBsb3Mgc2lndWllbnRlcyB0w6lybWlub3M6PC9zdHJvbmc+PC9wPgo8cD5Db25jZWRhIGxhIGxpY2VuY2lhIGRlIGRlcMOzc2l0byBlc3TDoW5kYXIgc2VsZWNjaW9uYW5kbyBsYSBvcGNpw7NuIDxzdHJvbmc+J0FjZXB0YXIgbG9zIHTDqXJtaW5vcyBhbnRlcmlvcm1lbnRlIGRlc2NyaXRvcyc8L3N0cm9uZz4geSBjb250aW51YXIgZWwgcHJvY2VzbyBkZSBlbnbDrW8gbWVkaWFudGUgZWwgYm90w7NuIDxzdHJvbmc+J1NpZ3VpZW50ZScuPC9zdHJvbmc+PC9wPgo8aHI+CjxwPllvLCBlbiBtaSBjYWxpZGFkIGRlIGF1dG9yIGRlbCB0cmFiYWpvIGRlIHRlc2lzLCBtb25vZ3JhZsOtYSBvIHRyYWJham8gZGUgZ3JhZG8sIGhhZ28gZW50cmVnYSBkZWwgZWplbXBsYXIgcmVzcGVjdGl2byB5IGRlIHN1cyBhbmV4b3MgZGUgc2VyIGVsIGNhc28sIGVuIGZvcm1hdG8gZGlnaXRhbCB5L28gZWxlY3Ryw7NuaWNvIHkgYXV0b3Jpem8gYSBsYSBVbml2ZXJzaWRhZCBkZSBsb3MgQW5kZXMgcGFyYSBxdWUgcmVhbGljZSBsYSBwdWJsaWNhY2nDs24gZW4gZWwgU2lzdGVtYSBkZSBCaWJsaW90ZWNhcyBvIGVuIGN1YWxxdWllciBvdHJvIHNpc3RlbWEgbyBiYXNlIGRlIGRhdG9zIHByb3BpbyBvIGFqZW5vIGEgbGEgVW5pdmVyc2lkYWQgeSBwYXJhIHF1ZSBlbiBsb3MgdMOpcm1pbm9zIGVzdGFibGVjaWRvcyBlbiBsYSBMZXkgMjMgZGUgMTk4MiwgTGV5IDQ0IGRlIDE5OTMsIERlY2lzacOzbiBBbmRpbmEgMzUxIGRlIDE5OTMsIERlY3JldG8gNDYwIGRlIDE5OTUgeSBkZW3DoXMgbm9ybWFzIGdlbmVyYWxlcyBzb2JyZSBsYSBtYXRlcmlhLCB1dGlsaWNlIGVuIHRvZGFzIHN1cyBmb3JtYXMsIGxvcyBkZXJlY2hvcyBwYXRyaW1vbmlhbGVzIGRlIHJlcHJvZHVjY2nDs24sIGNvbXVuaWNhY2nDs24gcMO6YmxpY2EsIHRyYW5zZm9ybWFjacOzbiB5IGRpc3RyaWJ1Y2nDs24gKGFscXVpbGVyLCBwcsOpc3RhbW8gcMO6YmxpY28gZSBpbXBvcnRhY2nDs24pIHF1ZSBtZSBjb3JyZXNwb25kZW4gY29tbyBjcmVhZG9yIGRlIGxhIG9icmEgb2JqZXRvIGRlbCBwcmVzZW50ZSBkb2N1bWVudG8uPC9wPgo8cD5MYSBwcmVzZW50ZSBhdXRvcml6YWNpw7NuIHNlIGVtaXRlIGVuIGNhbGlkYWQgZGUgYXV0b3IgZGUgbGEgb2JyYSBvYmpldG8gZGVsIHByZXNlbnRlIGRvY3VtZW50byB5IG5vIGNvcnJlc3BvbmRlIGEgY2VzacOzbiBkZSBkZXJlY2hvcywgc2lubyBhIGxhIGF1dG9yaXphY2nDs24gZGUgdXNvIGFjYWTDqW1pY28gZGUgY29uZm9ybWlkYWQgY29uIGxvIGFudGVyaW9ybWVudGUgc2XDsWFsYWRvLiBMYSBwcmVzZW50ZSBhdXRvcml6YWNpw7NuIHNlIGhhY2UgZXh0ZW5zaXZhIG5vIHNvbG8gYSBsYXMgZmFjdWx0YWRlcyB5IGRlcmVjaG9zIGRlIHVzbyBzb2JyZSBsYSBvYnJhIGVuIGZvcm1hdG8gbyBzb3BvcnRlIG1hdGVyaWFsLCBzaW5vIHRhbWJpw6luIHBhcmEgZm9ybWF0byBlbGVjdHLDs25pY28sIHkgZW4gZ2VuZXJhbCBwYXJhIGN1YWxxdWllciBmb3JtYXRvIGNvbm9jaWRvIG8gcG9yIGNvbm9jZXIuPC9wPgo8cD5FbCBhdXRvciwgbWFuaWZpZXN0YSBxdWUgbGEgb2JyYSBvYmpldG8gZGUgbGEgcHJlc2VudGUgYXV0b3JpemFjacOzbiBlcyBvcmlnaW5hbCB5IGxhIHJlYWxpesOzIHNpbiB2aW9sYXIgbyB1c3VycGFyIGRlcmVjaG9zIGRlIGF1dG9yIGRlIHRlcmNlcm9zLCBwb3IgbG8gdGFudG8sIGxhIG9icmEgZXMgZGUgc3UgZXhjbHVzaXZhIGF1dG9yw61hIHkgdGllbmUgbGEgdGl0dWxhcmlkYWQgc29icmUgbGEgbWlzbWEuPC9wPgo8cD5FbiBjYXNvIGRlIHByZXNlbnRhcnNlIGN1YWxxdWllciByZWNsYW1hY2nDs24gbyBhY2Npw7NuIHBvciBwYXJ0ZSBkZSB1biB0ZXJjZXJvIGVuIGN1YW50byBhIGxvcyBkZXJlY2hvcyBkZSBhdXRvciBzb2JyZSBsYSBvYnJhIGVuIGN1ZXN0acOzbiwgZWwgYXV0b3IgYXN1bWlyw6EgdG9kYSBsYSByZXNwb25zYWJpbGlkYWQsIHkgc2FsZHLDoSBkZSBkZWZlbnNhIGRlIGxvcyBkZXJlY2hvcyBhcXXDrSBhdXRvcml6YWRvcywgcGFyYSB0b2RvcyBsb3MgZWZlY3RvcyBsYSBVbml2ZXJzaWRhZCBhY3TDumEgY29tbyB1biB0ZXJjZXJvIGRlIGJ1ZW5hIGZlLjwvcD4KPHA+U2kgdGllbmUgYWxndW5hIGR1ZGEgc29icmUgbGEgbGljZW5jaWEsIHBvciBmYXZvciwgY29udGFjdGUgY29uIGVsIDxhIGhyZWY9Im1haWx0bzpiaWJsaW90ZWNhQHVuaWFuZGVzLmVkdS5jbyIgdGFyZ2V0PSJfYmxhbmsiPkFkbWluaXN0cmFkb3IgZGVsIFNpc3RlbWEuPC9hPjwvcD4K |