Extracción de datos semiestructurados en la web
La gran proliferación de textos, sobre todo en el formato electrónico hace muy difícil que cualquier persona sea capaz de leer, comprender y sintetizar tal cantidad de información. Es esto lo que ha llevado a un gran número de investigadores a desarrollar una serie de estrategias para el manejo de e...
- Autores:
-
Correa Trocha, Mayra Alejandra
Peñuela Morales, Sarith Mayerly
- Tipo de recurso:
- Trabajo de grado de pregrado
- Fecha de publicación:
- 2001
- Institución:
- Universidad Autónoma de Bucaramanga - UNAB
- Repositorio:
- Repositorio UNAB
- Idioma:
- spa
- OAI Identifier:
- oai:repository.unab.edu.co:20.500.12749/27074
- Acceso en línea:
- http://hdl.handle.net/20.500.12749/27074
- Palabra clave:
- Systems engineer
Technological innovations
Information systems
Data extraction
Database
Information retrieval
Information storage and retrieval systems
Software architecture
Ingeniería de sistemas
Innovaciones tecnológicas
Recuperación de información
Sistemas de almacenamiento y recuperación de información
Arquitectura de software
Sistemas de información
Extracción de datos
Base de datos
- Rights
- License
- http://creativecommons.org/licenses/by-nc-nd/2.5/co/
id |
UNAB2_50d9bd792faba0e9fdc6499d59e7defb |
---|---|
oai_identifier_str |
oai:repository.unab.edu.co:20.500.12749/27074 |
network_acronym_str |
UNAB2 |
network_name_str |
Repositorio UNAB |
repository_id_str |
|
dc.title.spa.fl_str_mv |
Extracción de datos semiestructurados en la web |
dc.title.translated.spa.fl_str_mv |
Semi-structured data extraction on the web |
title |
Extracción de datos semiestructurados en la web |
spellingShingle |
Extracción de datos semiestructurados en la web Systems engineer Technological innovations Information systems Data extraction Database Information retrieval Information storage and retrieval systems Software architecture Ingeniería de sistemas Innovaciones tecnológicas Recuperación de información Sistemas de almacenamiento y recuperación de información Arquitectura de software Sistemas de información Extracción de datos Base de datos |
title_short |
Extracción de datos semiestructurados en la web |
title_full |
Extracción de datos semiestructurados en la web |
title_fullStr |
Extracción de datos semiestructurados en la web |
title_full_unstemmed |
Extracción de datos semiestructurados en la web |
title_sort |
Extracción de datos semiestructurados en la web |
dc.creator.fl_str_mv |
Correa Trocha, Mayra Alejandra Peñuela Morales, Sarith Mayerly |
dc.contributor.advisor.none.fl_str_mv |
Pérez Alcázar, José de Jesús |
dc.contributor.author.none.fl_str_mv |
Correa Trocha, Mayra Alejandra Peñuela Morales, Sarith Mayerly |
dc.contributor.googlescholar.spa.fl_str_mv |
Pérez Alcázar, José de Jesús [es&oi=ao] |
dc.contributor.orcid.spa.fl_str_mv |
Pérez Alcázar, José de Jesús [0000-0003-3389-0401] |
dc.subject.keywords.spa.fl_str_mv |
Systems engineer Technological innovations Information systems Data extraction Database Information retrieval Information storage and retrieval systems Software architecture |
topic |
Systems engineer Technological innovations Information systems Data extraction Database Information retrieval Information storage and retrieval systems Software architecture Ingeniería de sistemas Innovaciones tecnológicas Recuperación de información Sistemas de almacenamiento y recuperación de información Arquitectura de software Sistemas de información Extracción de datos Base de datos |
dc.subject.lemb.spa.fl_str_mv |
Ingeniería de sistemas Innovaciones tecnológicas Recuperación de información Sistemas de almacenamiento y recuperación de información Arquitectura de software |
dc.subject.proposal.spa.fl_str_mv |
Sistemas de información Extracción de datos Base de datos |
description |
La gran proliferación de textos, sobre todo en el formato electrónico hace muy difícil que cualquier persona sea capaz de leer, comprender y sintetizar tal cantidad de información. Es esto lo que ha llevado a un gran número de investigadores a desarrollar una serie de estrategias para el manejo de esta información. Entre éstas se encuentra la Extracción de Información (IE). La IE pretende, a partir de estos textos, obtener información relevante que pueda ser utilizada electrónicamente, ° De esta manera, para hacer uso eficiente de la información contenida en un texto, es útil que la información sea almacenada en alguna clase de formato estructurado; por ejemplo, una base de datos relacional. Generalmente, el proceso de extracción de la información requerida de un documento hacia una Base de Datos es usualmente un proceso manual. Debido al enorme volumen de los textos que se encuentran en la Web, se crea la necesidad de tener métodos de procesamiento automático para extraer la información. |
publishDate |
2001 |
dc.date.issued.none.fl_str_mv |
2001-07-31 |
dc.date.accessioned.none.fl_str_mv |
2024-10-22T16:24:52Z |
dc.date.available.none.fl_str_mv |
2024-10-22T16:24:52Z |
dc.type.driver.none.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
dc.type.local.spa.fl_str_mv |
Trabajo de Grado |
dc.type.coar.none.fl_str_mv |
http://purl.org/coar/resource_type/c_7a1f |
dc.type.hasversion.none.fl_str_mv |
info:eu-repo/semantics/acceptedVersion |
dc.type.redcol.none.fl_str_mv |
http://purl.org/redcol/resource_type/TP |
format |
http://purl.org/coar/resource_type/c_7a1f |
status_str |
acceptedVersion |
dc.identifier.uri.none.fl_str_mv |
http://hdl.handle.net/20.500.12749/27074 |
dc.identifier.instname.spa.fl_str_mv |
instname:Universidad Autónoma de Bucaramanga - UNAB |
dc.identifier.reponame.spa.fl_str_mv |
reponame:Repositorio Institucional UNAB |
dc.identifier.repourl.spa.fl_str_mv |
repourl:https://repository.unab.edu.co |
url |
http://hdl.handle.net/20.500.12749/27074 |
identifier_str_mv |
instname:Universidad Autónoma de Bucaramanga - UNAB reponame:Repositorio Institucional UNAB repourl:https://repository.unab.edu.co |
dc.language.iso.spa.fl_str_mv |
spa |
language |
spa |
dc.relation.references.spa.fl_str_mv |
ABITEBOUL, Serge; BUNEMAN, Peter and SUCIU, Dan. Data on the Web: A Syntax for Date. San francisco. California: Morgan Kaufmann, 2000. 254 p. !- 55860-622-X. A. Y. Aho and Gorasixk, Efficient string matching: An aid to pibliographic search. Communications of ACM, 18 (6): $554P, 1975. ATZENI, P; MECCA, G. and MERIALDO, Pp. Semiestructured and structured data in the Web : Going back and forth. En : Universita di Roma Tre and Universita della Basilicata. BOOCH, Grady; RUMBAUGH, James y JACOBSON, Ivar, The Unified Modeling Languaje User Guide, 8.1. : Addigon Wesley, s.f, 431p. CATALÁ, N. y CASTELL, N. Construcción automática de diccionario de patrones de extracción de información. COWIE, J. and LEHNERT, W. Information extraction. En : Communications of ACM, (2000). CRESCENZI, V. and MECGCA, G. Grammars have exceptions. En : Dipartimento di Informatica e Autornazione Universita di Roma Tre. CGROFT, W. B. NSF center for intelligent information retrieval. En Communications of ACM. (1985); 740p. EMBLEY, D. W. et al. A conceptual - modeling approach to extracting data from the Web. En : Brigham Young Universíty. |
dc.rights.coar.fl_str_mv |
http://purl.org/coar/access_right/c_abf2 |
dc.rights.uri.*.fl_str_mv |
http://creativecommons.org/licenses/by-nc-nd/2.5/co/ |
dc.rights.local.spa.fl_str_mv |
Abierto (Texto Completo) |
dc.rights.creativecommons.*.fl_str_mv |
Atribución-NoComercial-SinDerivadas 2.5 Colombia |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-nd/2.5/co/ Abierto (Texto Completo) Atribución-NoComercial-SinDerivadas 2.5 Colombia http://purl.org/coar/access_right/c_abf2 |
dc.format.mimetype.spa.fl_str_mv |
application/pdf |
dc.coverage.spatial.spa.fl_str_mv |
Colombia |
dc.coverage.campus.spa.fl_str_mv |
UNAB Campus Bucaramanga |
dc.publisher.grantor.spa.fl_str_mv |
Universidad Autónoma de Bucaramanga UNAB |
dc.publisher.faculty.spa.fl_str_mv |
Facultad Ingeniería |
dc.publisher.program.spa.fl_str_mv |
Pregrado Ingeniería de Sistemas |
dc.publisher.programid.none.fl_str_mv |
ISI-1791 |
institution |
Universidad Autónoma de Bucaramanga - UNAB |
bitstream.url.fl_str_mv |
https://repository.unab.edu.co/bitstream/20.500.12749/27074/1/2001_Correa_Trocha_Mayra%20%281%29.pdf https://repository.unab.edu.co/bitstream/20.500.12749/27074/2/license.txt https://repository.unab.edu.co/bitstream/20.500.12749/27074/3/2001_Correa_Trocha_Mayra%20%281%29.pdf.jpg |
bitstream.checksum.fl_str_mv |
dd1f14580df0198c4924aff3d06d95f6 3755c0cfdb77e29f2b9125d7a45dd316 ea2db09e65f62fa0e3dff6bf262a4052 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositorio Institucional | Universidad Autónoma de Bucaramanga - UNAB |
repository.mail.fl_str_mv |
repositorio@unab.edu.co |
_version_ |
1814277516219645952 |
spelling |
Pérez Alcázar, José de Jesús38f31005-c259-48e5-845c-ac95c39cc2b9Correa Trocha, Mayra Alejandrab34189c9-aec8-464e-85b7-548f0760ab86Peñuela Morales, Sarith Mayerly59ec9c73-4aef-4474-8473-9a20d4674a3cPérez Alcázar, José de Jesús [es&oi=ao]Pérez Alcázar, José de Jesús [0000-0003-3389-0401]ColombiaUNAB Campus Bucaramanga2024-10-22T16:24:52Z2024-10-22T16:24:52Z2001-07-31http://hdl.handle.net/20.500.12749/27074instname:Universidad Autónoma de Bucaramanga - UNABreponame:Repositorio Institucional UNABrepourl:https://repository.unab.edu.coLa gran proliferación de textos, sobre todo en el formato electrónico hace muy difícil que cualquier persona sea capaz de leer, comprender y sintetizar tal cantidad de información. Es esto lo que ha llevado a un gran número de investigadores a desarrollar una serie de estrategias para el manejo de esta información. Entre éstas se encuentra la Extracción de Información (IE). La IE pretende, a partir de estos textos, obtener información relevante que pueda ser utilizada electrónicamente, ° De esta manera, para hacer uso eficiente de la información contenida en un texto, es útil que la información sea almacenada en alguna clase de formato estructurado; por ejemplo, una base de datos relacional. Generalmente, el proceso de extracción de la información requerida de un documento hacia una Base de Datos es usualmente un proceso manual. Debido al enorme volumen de los textos que se encuentran en la Web, se crea la necesidad de tener métodos de procesamiento automático para extraer la información.INTRODUCCIÓN FUNDAMENTACION TEORICA 1.1 EXTRACCION DE DATOS SEMI-ESTRUCTURADOS 1,41 Visión de un dato semi-estructurado 1.1.1.1 Estructura de los datos 1.1.2 La web 1.1.3 Wrappers 1.1.4 Desarrollo del software de extracción 1.2 DATA EXTRACTION BY EXAMPLE (DEByE) 1.2.1 Propuesta DEByE 1.2:2-Conceptos básicos y notación 1.2.3 Herramienta DEByE 1.2.4 Interfaz Grafica de Usuarios (GUI) 1.2.5 Parámetros de extracción de objetos (OE) 1.2.6 Extractor de DEByE 1.2.6.1 Técnica de extracción bottorm_up 2 CUADRO COMPARATIVO DE LAS TRES TÉCNICAS DE EXTRACCIÓN DE DATOS SEMIESTRUCTURADOS EN LA WEB 3. METODOLOGÍA DE DESARROLLO 3.1 VISIÓN GENÉRICA DE LA INGENIERÍA DEL SOFTWARE 3.2 CICLO DE VIDA 3.3 VISIÓN GENERAL DE LA METODOLOGÍA 3.3.1 Metodología 3.3.1.1 Análisis de requerimientos 3.3.1.2 Diseño del sistema 3.3.1.2.1 Diseño detallado 3.3.1.3 Implementación 4. ANALISIS DE REQUERIMIENTOS 4.1 IDENTIFICACIÓN DE LOS CASOS DE USO DEL SISTEMA 5. DISEÑO DEL SISTEMA 5.1 DESCRIPCIÓN DE OBJETOS 5.2 ARQUITECTURA DEL SISTEMA 5.3 PLATAFORMA DEL SISTEMA 5.4 DEFINICIÓN INICIAL DE LA INTERFAZ DEL SISTEMA 5.4.1 Descripción textual del funcionamiento 5 5 DISEÑO DE LA INTERFAZ GRÁFICA DE USUARIO 5.5.1 Descripción pantalla menú 5.5.2 Descripción pantalla solicitud de página 6. IMPLEMENTACION 6.1 CARACTERÍSTICAS DEL EQUIPO 6.2 HERRAMIENTAS UTILIZADAS 6.3 DIFICULTADES EN LA IMPLEMENTACIÓN 6.4 EXPERIENCIAS EN LA REALIZACIÓN DE PRUEBA 7, DIRECTRICES PARA TRABAJOS EUTURO 8. CONCLUSIONES BIBLIOGRAFÍA ANEXOSPregradoThe great proliferation of texts, especially in electronic format, makes it very difficult for anyone to be able to read, understand and synthesize such a quantity of information. It is this that has led to a large number of researchers to develop a series of strategies for managing this information. Among these is Information Extraction (IE). The EI aims, from these texts, to obtain relevant information that can be used electronically. ° In this way, to make efficient use of the information contained in a text, it is useful that the information be stored in some kind of structured format; for example, a relational database. Generally, the process of extracting the required information from a document into a Database is usually a manual process. Due to the enormous volume of texts found on the Web, the need to have automatic processing methods to extract information.Modalidad Presencialapplication/pdfspahttp://creativecommons.org/licenses/by-nc-nd/2.5/co/Abierto (Texto Completo)Atribución-NoComercial-SinDerivadas 2.5 Colombiahttp://purl.org/coar/access_right/c_abf2Extracción de datos semiestructurados en la webSemi-structured data extraction on the webIngeniero de SistemasUniversidad Autónoma de Bucaramanga UNABFacultad IngenieríaPregrado Ingeniería de SistemasISI-1791info:eu-repo/semantics/bachelorThesisTrabajo de Gradohttp://purl.org/coar/resource_type/c_7a1finfo:eu-repo/semantics/acceptedVersionhttp://purl.org/redcol/resource_type/TPSystems engineerTechnological innovationsInformation systemsData extractionDatabaseInformation retrievalInformation storage and retrieval systemsSoftware architectureIngeniería de sistemasInnovaciones tecnológicasRecuperación de informaciónSistemas de almacenamiento y recuperación de informaciónArquitectura de softwareSistemas de informaciónExtracción de datosBase de datosABITEBOUL, Serge; BUNEMAN, Peter and SUCIU, Dan. Data on the Web: A Syntax for Date. San francisco. California: Morgan Kaufmann, 2000. 254 p. !- 55860-622-X.A. Y. Aho and Gorasixk, Efficient string matching: An aid to pibliographic search. Communications of ACM, 18 (6): $554P, 1975.ATZENI, P; MECCA, G. and MERIALDO, Pp. Semiestructured and structured data in the Web : Going back and forth. En : Universita di Roma Tre and Universita della Basilicata.BOOCH, Grady; RUMBAUGH, James y JACOBSON, Ivar, The Unified Modeling Languaje User Guide, 8.1. : Addigon Wesley, s.f, 431p.CATALÁ, N. y CASTELL, N. Construcción automática de diccionario de patrones de extracción de información.COWIE, J. and LEHNERT, W. Information extraction. En : Communications of ACM, (2000).CRESCENZI, V. and MECGCA, G. Grammars have exceptions. En : Dipartimento di Informatica e Autornazione Universita di Roma Tre.CGROFT, W. B. NSF center for intelligent information retrieval. En Communications of ACM. (1985); 740p.EMBLEY, D. W. et al. A conceptual - modeling approach to extracting data from the Web. En : Brigham Young Universíty.ORIGINAL2001_Correa_Trocha_Mayra (1).pdf2001_Correa_Trocha_Mayra (1).pdfTesisapplication/pdf39240775https://repository.unab.edu.co/bitstream/20.500.12749/27074/1/2001_Correa_Trocha_Mayra%20%281%29.pdfdd1f14580df0198c4924aff3d06d95f6MD51open accessLICENSElicense.txtlicense.txttext/plain; charset=utf-8829https://repository.unab.edu.co/bitstream/20.500.12749/27074/2/license.txt3755c0cfdb77e29f2b9125d7a45dd316MD52open accessTHUMBNAIL2001_Correa_Trocha_Mayra (1).pdf.jpg2001_Correa_Trocha_Mayra (1).pdf.jpgIM Thumbnailimage/jpeg7946https://repository.unab.edu.co/bitstream/20.500.12749/27074/3/2001_Correa_Trocha_Mayra%20%281%29.pdf.jpgea2db09e65f62fa0e3dff6bf262a4052MD53open access20.500.12749/27074oai:repository.unab.edu.co:20.500.12749/270742024-10-22 22:01:37.87open accessRepositorio Institucional | Universidad Autónoma de Bucaramanga - UNABrepositorio@unab.edu.coRUwoTE9TKSBBVVRPUihFUyksIG1hbmlmaWVzdGEobWFuaWZlc3RhbW9zKSBxdWUgbGEgb2JyYSBvYmpldG8gZGUgbGEgcHJlc2VudGUgYXV0b3JpemFjacOzbiBlcyBvcmlnaW5hbCB5IGxhIHJlYWxpesOzIHNpbiB2aW9sYXIgbyB1c3VycGFyIGRlcmVjaG9zIGRlIGF1dG9yIGRlIHRlcmNlcm9zLCBwb3IgbG8gdGFudG8sIGxhIG9icmEgZXMgZGUgZXhjbHVzaXZhIGF1dG9yw61hIHkgdGllbmUgbGEgdGl0dWxhcmlkYWQgc29icmUgbGEgbWlzbWEuCgpFbiBjYXNvIGRlIHByZXNlbnRhcnNlIGN1YWxxdWllciByZWNsYW1hY2nDs24gbyBhY2Npw7NuIHBvciBwYXJ0ZSBkZSB1biB0ZXJjZXJvIGVuIGN1YW50byBhIGxvcyBkZXJlY2hvcyBkZSBhdXRvciBzb2JyZSBsYSBvYnJhIGVuIGN1ZXN0acOzbi4gRWwgQVVUT1IgYXN1bWlyw6EgdG9kYSBsYSByZXNwb25zYWJpbGlkYWQsIHkgc2FsZHLDoSBlbiBkZWZlbnNhIGRlIGxvcyBkZXJlY2hvcyBhcXXDrSBhdXRvcml6YWRvcywgcGFyYSB0b2RvcyBsb3MgZWZlY3RvcyBsYSBVTkFCIGFjdMO6YSBjb21vIHVuIHRlcmNlcm8gZGUgYnVlbmEgZmUuCgpFbCBBVVRPUiBhdXRvcml6YSBhIGxhIFVuaXZlcnNpZGFkIEF1dMOzbm9tYSBkZSBCdWNhcmFtYW5nYSBwYXJhIHF1ZSBlbiBsb3MgdMOpcm1pbm9zIGVzdGFibGVjaWRvcyBlbiBsYSBMZXkgMjMgZGUgMTk4MiwgTGV5IDQ0IGRlIDE5OTMsIERlY2lzacOzbiBBbmRpbmEgMzUxIGRlIDE5OTMgeSBkZW3DoXMgbm9ybWFzIGdlbmVyYWxlcyBzb2JyZSBsYSBtYXRlcmlhLCB1dGlsaWNlIGxhIG9icmEgb2JqZXRvIGRlIGxhIHByZXNlbnRlIGF1dG9yaXphY2nDs24uCg== |