Estudio e implementación del modelo semántico latente para la recuperación de información

Las personas disponen de una gran cantidad de información, pero de pocos medios que le faciliten clasificarla y encontrar exactamente lo que necesitan, debido a la gran cantidad de información anexada diariamente en diferentes medios informáticos, generando una sobrecarga de información. El término...

Full description

Autores:
Betancur Estevéz, Freddy Alonso
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
2003
Institución:
Universidad Autónoma de Bucaramanga - UNAB
Repositorio:
Repositorio UNAB
Idioma:
spa
OAI Identifier:
oai:repository.unab.edu.co:20.500.12749/26128
Acceso en línea:
http://hdl.handle.net/20.500.12749/26128
Palabra clave:
Systems engineer
Technological innovations
Vector model
Neural networks
Terminology
Semantic model
Information retrieval
Information science
Information technology
Ingeniería de sistemas
Innovaciones tecnológicas
Recuperación de información
Ciencia de la información
Tecnología de la información
Modelo vectorial
Redes neuronales
Terminología
Modelo semántico
Rights
License
http://creativecommons.org/licenses/by-nc-nd/2.5/co/
id UNAB2_b42b70de7a645fa283ffd08b6657f51d
oai_identifier_str oai:repository.unab.edu.co:20.500.12749/26128
network_acronym_str UNAB2
network_name_str Repositorio UNAB
repository_id_str
dc.title.spa.fl_str_mv Estudio e implementación del modelo semántico latente para la recuperación de información
dc.title.translated.spa.fl_str_mv Study and implementation of the latent semantic model for information retrieval
title Estudio e implementación del modelo semántico latente para la recuperación de información
spellingShingle Estudio e implementación del modelo semántico latente para la recuperación de información
Systems engineer
Technological innovations
Vector model
Neural networks
Terminology
Semantic model
Information retrieval
Information science
Information technology
Ingeniería de sistemas
Innovaciones tecnológicas
Recuperación de información
Ciencia de la información
Tecnología de la información
Modelo vectorial
Redes neuronales
Terminología
Modelo semántico
title_short Estudio e implementación del modelo semántico latente para la recuperación de información
title_full Estudio e implementación del modelo semántico latente para la recuperación de información
title_fullStr Estudio e implementación del modelo semántico latente para la recuperación de información
title_full_unstemmed Estudio e implementación del modelo semántico latente para la recuperación de información
title_sort Estudio e implementación del modelo semántico latente para la recuperación de información
dc.creator.fl_str_mv Betancur Estevéz, Freddy Alonso
dc.contributor.advisor.none.fl_str_mv Pérez Alcázar, José de Jesús
dc.contributor.author.none.fl_str_mv Betancur Estevéz, Freddy Alonso
dc.subject.keywords.spa.fl_str_mv Systems engineer
Technological innovations
Vector model
Neural networks
Terminology
Semantic model
Information retrieval
Information science
Information technology
topic Systems engineer
Technological innovations
Vector model
Neural networks
Terminology
Semantic model
Information retrieval
Information science
Information technology
Ingeniería de sistemas
Innovaciones tecnológicas
Recuperación de información
Ciencia de la información
Tecnología de la información
Modelo vectorial
Redes neuronales
Terminología
Modelo semántico
dc.subject.lemb.spa.fl_str_mv Ingeniería de sistemas
Innovaciones tecnológicas
Recuperación de información
Ciencia de la información
Tecnología de la información
dc.subject.proposal.spa.fl_str_mv Modelo vectorial
Redes neuronales
Terminología
Modelo semántico
description Las personas disponen de una gran cantidad de información, pero de pocos medios que le faciliten clasificarla y encontrar exactamente lo que necesitan, debido a la gran cantidad de información anexada diariamente en diferentes medios informáticos, generando una sobrecarga de información. El término Recuperación de Información surge con la introducción de la Ciencia de información como ciencia integradora de la teoría, proceso y práctica documental, con otras ciencias complementarias como la cibernética, la informática, la teoría de la información y la comunicación, etc. Se ha usado diversa terminología para referirse al área de estudio que envuelve el concepto de recuperación de información: informática documental, tecnologías de la información, documentación automática/ documática.
publishDate 2003
dc.date.issued.none.fl_str_mv 2003-05-29
dc.date.accessioned.none.fl_str_mv 2024-08-21T16:50:14Z
dc.date.available.none.fl_str_mv 2024-08-21T16:50:14Z
dc.type.driver.none.fl_str_mv info:eu-repo/semantics/bachelorThesis
dc.type.local.spa.fl_str_mv Trabajo de Grado
dc.type.coar.none.fl_str_mv http://purl.org/coar/resource_type/c_7a1f
dc.type.hasversion.none.fl_str_mv info:eu-repo/semantics/acceptedVersion
dc.type.redcol.none.fl_str_mv http://purl.org/redcol/resource_type/TP
format http://purl.org/coar/resource_type/c_7a1f
status_str acceptedVersion
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/20.500.12749/26128
dc.identifier.instname.spa.fl_str_mv instname:Universidad Autónoma de Bucaramanga - UNAB
dc.identifier.reponame.spa.fl_str_mv reponame:Repositorio Institucional UNAB
dc.identifier.repourl.spa.fl_str_mv repourl:https://repository.unab.edu.co
url http://hdl.handle.net/20.500.12749/26128
identifier_str_mv instname:Universidad Autónoma de Bucaramanga - UNAB
reponame:Repositorio Institucional UNAB
repourl:https://repository.unab.edu.co
dc.language.iso.spa.fl_str_mv spa
language spa
dc.relation.references.spa.fl_str_mv http://www.informaticamilenium.com.mx/paginas/espanol/posicionainiento.htm.
BAEZA YATES, R. and RIBEIRO NETO, Berthier A Modern Information Retrieval. Maryland: Addison Wesley Longman Publishing co, 1999.
INTRODUCCIÓN A LOS SISTFMAS DE RECUPERACIÓN DE INFORMACIÓN. <Http://www. um.es/gtiweb/fjmm/sarisite/tema1.html>.
BAEZA YATES, Ricardo Y RIBEIRO NETO, Rerthier. Modern Information Retrieval. Addison Wesley ACM Press. 1992.
MUI ORES DE BUSQUEDA. ABRIL, 2002.
OARD W, Douglas. A conceptual Framework for Text Filtering. University of Maryland, College Park, Mayo, 1996. http.7/www.enee.umd.edu/medlab/filter/filter.html
BAEZA YATES, Ricardo Y RIBEIRO NETO, Rerthier. Modern Information Retrieval. Addisson Wesley ACM Press. 1992.
MEADOW, Charles T. Text Information Retrieval Systems. Academic Press, 1992
VAN RIJSBERGEN, C. J. Information retrieval. Butterworths, 1979. 45p
VAN RIJSBERGEN, C. J. Information retrieval. Butterworths, 1979. 122p
YANG, Yiming y PEDERSEN, Jan O. A comparative study on features selection ¡n text categorization. School of Computer Science, Carnegie Mellón University, 1997.
http://www.dia.fi.upm.es/' agarcia/lenguajenatural/131201-1.pdf
WIENER, Erik D. et al. A Neural Network Approach to Topic Spotting. En Fourth Annual Symposium on Document Analysis and Information Retrieval (SDAIR'95). 1995, Las Vegas. 1995. p.317-332. http://www.stern.nyu.edu/~aweigend/Research/Papers/TextCategorization
BAEZA YATES, Ricardo Y RIBEIRO NETO, Rerthier Modor Information Retrieval. Pág 44 - 45
SANTO ORCERO, DAVID. The fundamental matrix and the essential matrix: concepts and applications. 2002
SCOTT DEERWESTER, SUSAN T. DOMAIS, GEORGE W. FIJRNAS, THOMAS K. LAUNDAUER, RICHARD HARSHMAN. Indexing by Latent Semantic Analysis. Pág 11.
BAEZA YATES, Ricardo Y RIBEIRO NETO, Moder Information Retrieval. Pág 27- 30
http://trec.nist.gov/overview.htmlg
BAEZA YATES, Ricardo Y RIBEIRO NETO, Moder Information Retrieval Pág 76 y ss
BOOCH, Grady, JACOBSON, Ivar RUMBAUGH, James. The Unified Modeling Languaje. Addison Wesley Longman Inc. Rational Software Corporation. 1999.
dc.rights.coar.fl_str_mv http://purl.org/coar/access_right/c_abf2
dc.rights.uri.*.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/2.5/co/
dc.rights.local.spa.fl_str_mv Abierto (Texto Completo)
dc.rights.creativecommons.*.fl_str_mv Atribución-NoComercial-SinDerivadas 2.5 Colombia
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-nd/2.5/co/
Abierto (Texto Completo)
Atribución-NoComercial-SinDerivadas 2.5 Colombia
http://purl.org/coar/access_right/c_abf2
dc.format.mimetype.spa.fl_str_mv application/pdf
dc.coverage.spatial.spa.fl_str_mv Bucaramanga (Santander, Colombia)
dc.coverage.campus.spa.fl_str_mv UNAB Campus Bucaramanga
dc.publisher.grantor.spa.fl_str_mv Universidad Autónoma de Bucaramanga UNAB
dc.publisher.faculty.spa.fl_str_mv Facultad Ingeniería
dc.publisher.program.spa.fl_str_mv Ingeniería de Sistemas
institution Universidad Autónoma de Bucaramanga - UNAB
bitstream.url.fl_str_mv https://repository.unab.edu.co/bitstream/20.500.12749/26128/1/2003_Betancur_Estevez_Freddy.pdf
https://repository.unab.edu.co/bitstream/20.500.12749/26128/2/license.txt
https://repository.unab.edu.co/bitstream/20.500.12749/26128/3/2003_Betancur_Estevez_Freddy.pdf.jpg
bitstream.checksum.fl_str_mv 8f43c01284be40e4269bf543624daa6b
3755c0cfdb77e29f2b9125d7a45dd316
41afa1e4b2e3a5a25796451e8bce51da
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositorio Institucional | Universidad Autónoma de Bucaramanga - UNAB
repository.mail.fl_str_mv repositorio@unab.edu.co
_version_ 1808410706123423744
spelling Pérez Alcázar, José de Jesús38f31005-c259-48e5-845c-ac95c39cc2b9Betancur Estevéz, Freddy Alonsob65e5ff8-b589-49e0-af32-276037a946aeBucaramanga (Santander, Colombia)UNAB Campus Bucaramanga2024-08-21T16:50:14Z2024-08-21T16:50:14Z2003-05-29http://hdl.handle.net/20.500.12749/26128instname:Universidad Autónoma de Bucaramanga - UNABreponame:Repositorio Institucional UNABrepourl:https://repository.unab.edu.coLas personas disponen de una gran cantidad de información, pero de pocos medios que le faciliten clasificarla y encontrar exactamente lo que necesitan, debido a la gran cantidad de información anexada diariamente en diferentes medios informáticos, generando una sobrecarga de información. El término Recuperación de Información surge con la introducción de la Ciencia de información como ciencia integradora de la teoría, proceso y práctica documental, con otras ciencias complementarias como la cibernética, la informática, la teoría de la información y la comunicación, etc. Se ha usado diversa terminología para referirse al área de estudio que envuelve el concepto de recuperación de información: informática documental, tecnologías de la información, documentación automática/ documática.Introducción........................................................................................................................................................................................ 1 generalidades........................................................................................................................................................................................ 17 1.1 definiciones........................................................................................................................................................................................ 17 1.1.1 documento estructurado............................................................................................................................................................... 17 1.1.2 documento de texto completo.......................................................................................................................................... 17 1.1.3 palabra clave................................................................................................................................................................................... 17 1.2 recuperación de información........................................................................................................................................................... 17 1.3 vista lógica del documento............................................................................................................................................................ 19 2 representación acción del documento .......................................................................................................................................... 21 2.1 selección de términos ........................................................................................................................................................................21 2.2 estructura de almacenamiento de datos...................................................................................................................................... 21 2.1.1 listas o archivos invertidos.......................................................................................................................................................... 22 3 modelos de recuperación de información....................................................................................................................................... 23 3.1 modelo vectorial ...............................................................................................................................................................................24 3.2 modelo booleano.............................................................................................................................................................................. 26 3.3 modelo de redes neuronales......................................................................................................................................................... 26 4 modelo de indexación semántico latente.......................................................................................................................................... 28 Para la recuperación de información...................................................................................................................................................... 4.1 la transformada svd..................................................................................................................................................................... 28 4.2. La definición de la terminología básica es...........................................................................................................................29 4.3 método de evaluación de los modelos implementados.............................................................................................................. 31 4.3.1 diagramas recall & precisión no interpolada.......................................................................................................................... 33 4.3.2 diagrama recall & precisión interpolada..................................................................................................................................... 34 5 estudio e implementación del modelo semántico .......................................................................................................................37 Iatente para i a recuperación de información....................................................................................................................................... 5.1 captura de requerimientos........................................................................................................................................................... 37 5.1.1 casos de uso................................................................................................................................................................................ 37 5.1.1.1 actor........................................................................................................................................................................................ 37 5.1.1.2 flujo de eventos ......................................................................................................................................................................37 5.1.1.3 comunica................................................................................................................................................................................. 37 5.1.1.4 usa........................................................................................................................................................................................ 37 5.1.1.5 extiende ...................................................................................................................................................................................37 5.1.2 casos de uso para la recuperación de información ...........................................................................................................37 5.2 análisis........................................................................................................................................................................................ 38 5.2.1 diagrama de clases................................................................................................................................................................. 38 5.2.2 diagrama de clases para el prototipo de recuperación de Información.........................................................................38 5.2.2.1 diccionario de datos para el prototipo de recuperación de Información..................................................................38 5.2.3 diagramas de interacción ........................................................................................................................................................38 5.2.3.1 diagramas de secuencia .......................................................................................................................................................38 5.2.3.2 diagramas de colaboración ..................................................................................................................................................41 5.2.4 diagramas de secuencia y colaboración para el prototipo de Recuperación de información..............................................42 5.2.5 diagramas de actividades............................................................................................................................................................ 43 5.2.6 diagramas de actividades y sus descripciones para el prototipo de Recuperación de información.............................. 43 5.2.7 diagrama de estados................................................................................................................................................................... 44 5.2.8 diagramas de estados para el prototipo de recuperación de Información............................................................................44 5.2.9 clases-responsabilidades-colaboraciones............................................................................................................................ 45 5.2.9.1 clase ........................................................................................................................................................................................45 5.2.9.2 responsabilidad..................................................................................................................................................................... 45 5.2.9 3 colaboración.......................................................................................................................................................................... 45 5.2.9.4 tarjetas crc................................................................................................................................................................................ 45 5.2.10 tarjetas crc para el prototipo de recuperación de información............................................................................................ 45 5 3 diseño ..........................................................................................................................................................................................47 5.3.1.1 clase frontera ..........................................................................................................................................................................47 5.3.1.2 clase entidad .............................................................................................................................................................................47 5.3.1.3 clase control ..........................................................................................................................................................................48 5.3.2 descripción procedimental de objetos...................................................................................................................................... 48 5.4 desarrollo del modelo .................................................................................................................................................................48 5.4.1 utilización de la base de datos trec ..........................................................................................................................................49 5.4.2 realización del modelo semántico latente.............................................................................................................................. 50 5.4.3 uso de la técnica svd................................................................................................................................................................... 50 5.4.4 recuperación de información utilizando el modelo de vector espacial ..............................................................................51 5.5 resultados de la comparación de los modelos ya Implementados ............................................................................................52 6 conclusiones........................................................................................................................................................................................ 57 7 sugerencias para trabajos futuros..................................................................................................................................................... 59 Bibliografía................................................................................................................................................................................................. 60 Anexos...................................................................................................................................................................................................... 63PregradoPeople have a large amount of information, but few means to help them classify it and find exactly what they need, due to the large amount of information added daily to different computer media, generating an information overload. The term Information Retrieval arose with the introduction of Information Science as an integrative science of documentary theory, process and practice, with other complementary sciences such as cybernetics, computer science, information and communication theory, etc. Various terminology has been used to refer to the area of ​​study that involves the concept of information retrieval: documentary computing, information technologies, automatic documentation/documentation.Modalidad Presencialapplication/pdfspahttp://creativecommons.org/licenses/by-nc-nd/2.5/co/Abierto (Texto Completo)Atribución-NoComercial-SinDerivadas 2.5 Colombiahttp://purl.org/coar/access_right/c_abf2Estudio e implementación del modelo semántico latente para la recuperación de informaciónStudy and implementation of the latent semantic model for information retrievalIngeniero de SistemasUniversidad Autónoma de Bucaramanga UNABFacultad IngenieríaIngeniería de Sistemasinfo:eu-repo/semantics/bachelorThesisTrabajo de Gradohttp://purl.org/coar/resource_type/c_7a1finfo:eu-repo/semantics/acceptedVersionhttp://purl.org/redcol/resource_type/TPSystems engineerTechnological innovationsVector modelNeural networksTerminologySemantic modelInformation retrievalInformation scienceInformation technologyIngeniería de sistemasInnovaciones tecnológicasRecuperación de informaciónCiencia de la informaciónTecnología de la informaciónModelo vectorialRedes neuronalesTerminologíaModelo semánticohttp://www.informaticamilenium.com.mx/paginas/espanol/posicionainiento.htm.BAEZA YATES, R. and RIBEIRO NETO, Berthier A Modern Information Retrieval. Maryland: Addison Wesley Longman Publishing co, 1999.INTRODUCCIÓN A LOS SISTFMAS DE RECUPERACIÓN DE INFORMACIÓN. <Http://www. um.es/gtiweb/fjmm/sarisite/tema1.html>.BAEZA YATES, Ricardo Y RIBEIRO NETO, Rerthier. Modern Information Retrieval. Addison Wesley ACM Press. 1992.MUI ORES DE BUSQUEDA. ABRIL, 2002.OARD W, Douglas. A conceptual Framework for Text Filtering. University of Maryland, College Park, Mayo, 1996. http.7/www.enee.umd.edu/medlab/filter/filter.htmlBAEZA YATES, Ricardo Y RIBEIRO NETO, Rerthier. Modern Information Retrieval. Addisson Wesley ACM Press. 1992.MEADOW, Charles T. Text Information Retrieval Systems. Academic Press, 1992VAN RIJSBERGEN, C. J. Information retrieval. Butterworths, 1979. 45pVAN RIJSBERGEN, C. J. Information retrieval. Butterworths, 1979. 122pYANG, Yiming y PEDERSEN, Jan O. A comparative study on features selection ¡n text categorization. School of Computer Science, Carnegie Mellón University, 1997.http://www.dia.fi.upm.es/' agarcia/lenguajenatural/131201-1.pdfWIENER, Erik D. et al. A Neural Network Approach to Topic Spotting. En Fourth Annual Symposium on Document Analysis and Information Retrieval (SDAIR'95). 1995, Las Vegas. 1995. p.317-332. http://www.stern.nyu.edu/~aweigend/Research/Papers/TextCategorizationBAEZA YATES, Ricardo Y RIBEIRO NETO, Rerthier Modor Information Retrieval. Pág 44 - 45SANTO ORCERO, DAVID. The fundamental matrix and the essential matrix: concepts and applications. 2002SCOTT DEERWESTER, SUSAN T. DOMAIS, GEORGE W. FIJRNAS, THOMAS K. LAUNDAUER, RICHARD HARSHMAN. Indexing by Latent Semantic Analysis. Pág 11.BAEZA YATES, Ricardo Y RIBEIRO NETO, Moder Information Retrieval. Pág 27- 30http://trec.nist.gov/overview.htmlgBAEZA YATES, Ricardo Y RIBEIRO NETO, Moder Information Retrieval Pág 76 y ssBOOCH, Grady, JACOBSON, Ivar RUMBAUGH, James. The Unified Modeling Languaje. Addison Wesley Longman Inc. Rational Software Corporation. 1999.ORIGINAL2003_Betancur_Estevez_Freddy.pdf2003_Betancur_Estevez_Freddy.pdfTesisapplication/pdf15845714https://repository.unab.edu.co/bitstream/20.500.12749/26128/1/2003_Betancur_Estevez_Freddy.pdf8f43c01284be40e4269bf543624daa6bMD51open accessLICENSElicense.txtlicense.txttext/plain; charset=utf-8829https://repository.unab.edu.co/bitstream/20.500.12749/26128/2/license.txt3755c0cfdb77e29f2b9125d7a45dd316MD52open accessTHUMBNAIL2003_Betancur_Estevez_Freddy.pdf.jpg2003_Betancur_Estevez_Freddy.pdf.jpgIM Thumbnailimage/jpeg7425https://repository.unab.edu.co/bitstream/20.500.12749/26128/3/2003_Betancur_Estevez_Freddy.pdf.jpg41afa1e4b2e3a5a25796451e8bce51daMD53open access20.500.12749/26128oai:repository.unab.edu.co:20.500.12749/261282024-08-21 22:01:45.116open accessRepositorio Institucional | Universidad Autónoma de Bucaramanga - UNABrepositorio@unab.edu.coRUwoTE9TKSBBVVRPUihFUyksIG1hbmlmaWVzdGEobWFuaWZlc3RhbW9zKSBxdWUgbGEgb2JyYSBvYmpldG8gZGUgbGEgcHJlc2VudGUgYXV0b3JpemFjacOzbiBlcyBvcmlnaW5hbCB5IGxhIHJlYWxpesOzIHNpbiB2aW9sYXIgbyB1c3VycGFyIGRlcmVjaG9zIGRlIGF1dG9yIGRlIHRlcmNlcm9zLCBwb3IgbG8gdGFudG8sIGxhIG9icmEgZXMgZGUgZXhjbHVzaXZhIGF1dG9yw61hIHkgdGllbmUgbGEgdGl0dWxhcmlkYWQgc29icmUgbGEgbWlzbWEuCgpFbiBjYXNvIGRlIHByZXNlbnRhcnNlIGN1YWxxdWllciByZWNsYW1hY2nDs24gbyBhY2Npw7NuIHBvciBwYXJ0ZSBkZSB1biB0ZXJjZXJvIGVuIGN1YW50byBhIGxvcyBkZXJlY2hvcyBkZSBhdXRvciBzb2JyZSBsYSBvYnJhIGVuIGN1ZXN0acOzbi4gRWwgQVVUT1IgYXN1bWlyw6EgdG9kYSBsYSByZXNwb25zYWJpbGlkYWQsIHkgc2FsZHLDoSBlbiBkZWZlbnNhIGRlIGxvcyBkZXJlY2hvcyBhcXXDrSBhdXRvcml6YWRvcywgcGFyYSB0b2RvcyBsb3MgZWZlY3RvcyBsYSBVTkFCIGFjdMO6YSBjb21vIHVuIHRlcmNlcm8gZGUgYnVlbmEgZmUuCgpFbCBBVVRPUiBhdXRvcml6YSBhIGxhIFVuaXZlcnNpZGFkIEF1dMOzbm9tYSBkZSBCdWNhcmFtYW5nYSBwYXJhIHF1ZSBlbiBsb3MgdMOpcm1pbm9zIGVzdGFibGVjaWRvcyBlbiBsYSBMZXkgMjMgZGUgMTk4MiwgTGV5IDQ0IGRlIDE5OTMsIERlY2lzacOzbiBBbmRpbmEgMzUxIGRlIDE5OTMgeSBkZW3DoXMgbm9ybWFzIGdlbmVyYWxlcyBzb2JyZSBsYSBtYXRlcmlhLCB1dGlsaWNlIGxhIG9icmEgb2JqZXRvIGRlIGxhIHByZXNlbnRlIGF1dG9yaXphY2nDs24uCg==