Evaluación de herramientas de extracción automática de conceptos dentro de un ambiente de biblioteca digital
El rápido avance de la tecnología ha originado la proliferación de fuentes de información digital. Esta evolución informática ha provocado la creación de bibliotecas digitales que han ido convirtiendose poco a poco en un gran pilar para la difusión del conocimiento. Sin embargo, la información conte...
- Autores:
-
Abascal, Rocío
Rumpler, Béatrice
- Tipo de recurso:
- Trabajo de grado de pregrado
- Fecha de publicación:
- 2005
- Institución:
- Universidad Autónoma de Bucaramanga - UNAB
- Repositorio:
- Repositorio UNAB
- Idioma:
- spa
- OAI Identifier:
- oai:repository.unab.edu.co:20.500.12749/9024
- Acceso en línea:
- http://hdl.handle.net/20.500.12749/9024
- Palabra clave:
- Innovaciones tecnológicas
Ciencia de los computadores
Desarrollo de tecnología
Ingeniería de sistemas
Investigaciones
Tecnologías de la información y las comunicaciones
TIC´s
Technological innovations
Computer science
Technology development
Systems engineering
Investigations
Information and communication technologies
ICT's
Digital library
Metadata
Natural language processing
Information extraction
Annotation
Information search
Innovaciones tecnológicas
Ciencias de la computación
Desarrollo tecnológico
Ingeniería de sistemas
Investigaciones
Tecnologías de la información y la comunicación
Biblioteca digital
Metadatos
Procesamiento del lenguaje natural
Extracción de información
Anotación
Búsqueda de información
- Rights
- License
- Derechos de autor 2005 Revista Colombiana de Computación
id |
UNAB2_51335999294f495834bfded0cb63e75d |
---|---|
oai_identifier_str |
oai:repository.unab.edu.co:20.500.12749/9024 |
network_acronym_str |
UNAB2 |
network_name_str |
Repositorio UNAB |
repository_id_str |
|
dc.title.spa.fl_str_mv |
Evaluación de herramientas de extracción automática de conceptos dentro de un ambiente de biblioteca digital |
dc.title.translated.eng.fl_str_mv |
Evaluation of automatic concept extraction tools within a digital library environment |
title |
Evaluación de herramientas de extracción automática de conceptos dentro de un ambiente de biblioteca digital |
spellingShingle |
Evaluación de herramientas de extracción automática de conceptos dentro de un ambiente de biblioteca digital Innovaciones tecnológicas Ciencia de los computadores Desarrollo de tecnología Ingeniería de sistemas Investigaciones Tecnologías de la información y las comunicaciones TIC´s Technological innovations Computer science Technology development Systems engineering Investigations Information and communication technologies ICT's Digital library Metadata Natural language processing Information extraction Annotation Information search Innovaciones tecnológicas Ciencias de la computación Desarrollo tecnológico Ingeniería de sistemas Investigaciones Tecnologías de la información y la comunicación Biblioteca digital Metadatos Procesamiento del lenguaje natural Extracción de información Anotación Búsqueda de información |
title_short |
Evaluación de herramientas de extracción automática de conceptos dentro de un ambiente de biblioteca digital |
title_full |
Evaluación de herramientas de extracción automática de conceptos dentro de un ambiente de biblioteca digital |
title_fullStr |
Evaluación de herramientas de extracción automática de conceptos dentro de un ambiente de biblioteca digital |
title_full_unstemmed |
Evaluación de herramientas de extracción automática de conceptos dentro de un ambiente de biblioteca digital |
title_sort |
Evaluación de herramientas de extracción automática de conceptos dentro de un ambiente de biblioteca digital |
dc.creator.fl_str_mv |
Abascal, Rocío Rumpler, Béatrice |
dc.contributor.author.spa.fl_str_mv |
Abascal, Rocío Rumpler, Béatrice |
dc.subject.none.fl_str_mv |
Innovaciones tecnológicas Ciencia de los computadores Desarrollo de tecnología Ingeniería de sistemas Investigaciones Tecnologías de la información y las comunicaciones TIC´s |
topic |
Innovaciones tecnológicas Ciencia de los computadores Desarrollo de tecnología Ingeniería de sistemas Investigaciones Tecnologías de la información y las comunicaciones TIC´s Technological innovations Computer science Technology development Systems engineering Investigations Information and communication technologies ICT's Digital library Metadata Natural language processing Information extraction Annotation Information search Innovaciones tecnológicas Ciencias de la computación Desarrollo tecnológico Ingeniería de sistemas Investigaciones Tecnologías de la información y la comunicación Biblioteca digital Metadatos Procesamiento del lenguaje natural Extracción de información Anotación Búsqueda de información |
dc.subject.keywords.eng.fl_str_mv |
Technological innovations Computer science Technology development Systems engineering Investigations Information and communication technologies ICT's Digital library Metadata Natural language processing Information extraction Annotation Information search |
dc.subject.lemb.spa.fl_str_mv |
Innovaciones tecnológicas Ciencias de la computación Desarrollo tecnológico Ingeniería de sistemas Investigaciones Tecnologías de la información y la comunicación |
dc.subject.proposal.spa.fl_str_mv |
Biblioteca digital Metadatos Procesamiento del lenguaje natural Extracción de información Anotación Búsqueda de información |
description |
El rápido avance de la tecnología ha originado la proliferación de fuentes de información digital. Esta evolución informática ha provocado la creación de bibliotecas digitales que han ido convirtiendose poco a poco en un gran pilar para la difusión del conocimiento. Sin embargo, la información contenida en las bibliotecas digitales aún no está descrita totalmente y su explotación es aún insuficiente. Recientemente, se ha comprobado que la descripción de la información usando “metadatos” puede ser primordial para el mejoramiento de la consulta de la información dentro de una biblioteca digital. Nuestro enfoque está basado en la creación e introducción de nuevos “metadatos” capaces de describir, en nuestro caso, las tesis doctorales de una biblioteca digital. Estos “metadatos” corresponden a los conceptos más importantes de cada una de las tesis. Actualmente, la identificación manual de conceptos es un largo proceso llevado a cabo por un especialista del área. Por lo tanto, es importante hacer uso de herramientas capaces de extraer automáticamente conceptos. En este artículo analizamos cuatro herramientas de PLN (Procesamiento del Lenguaje Natural) capaces de extraer automáticamente los conceptos claves de un corpus. Estas herramientas son: (1) TerminologyExtractor de Chamblon Systems Inc., (2) Xerox Terminology Suite de Xerox, (3) Nomino de Nomino Technologies y (4) Copernic Summarizer de NRC. Este artículo presenta también un prototipo de herramienta de anotación desarrollado para insertar de manera automática conceptos a las tesis digitales. |
publishDate |
2005 |
dc.date.issued.none.fl_str_mv |
2005-06-01 |
dc.date.accessioned.none.fl_str_mv |
2020-10-27T00:21:11Z |
dc.date.available.none.fl_str_mv |
2020-10-27T00:21:11Z |
dc.type.coar.fl_str_mv |
http://purl.org/coar/resource_type/c_2df8fbb1 |
dc.type.driver.none.fl_str_mv |
info:eu-repo/semantics/article |
dc.type.local.spa.fl_str_mv |
Artículo |
dc.type.coar.none.fl_str_mv |
http://purl.org/coar/resource_type/c_7a1f |
dc.type.redcol.none.fl_str_mv |
http://purl.org/redcol/resource_type/CJournalArticle |
format |
http://purl.org/coar/resource_type/c_7a1f |
dc.identifier.issn.none.fl_str_mv |
2539-2115 1657-2831 |
dc.identifier.uri.none.fl_str_mv |
http://hdl.handle.net/20.500.12749/9024 |
dc.identifier.instname.spa.fl_str_mv |
instname:Universidad Autónoma de Bucaramanga UNAB |
dc.identifier.repourl.none.fl_str_mv |
repourl:https://repository.unab.edu.co |
identifier_str_mv |
2539-2115 1657-2831 instname:Universidad Autónoma de Bucaramanga UNAB repourl:https://repository.unab.edu.co |
url |
http://hdl.handle.net/20.500.12749/9024 |
dc.language.iso.spa.fl_str_mv |
spa |
language |
spa |
dc.relation.none.fl_str_mv |
https://revistas.unab.edu.co/index.php/rcc/article/view/1066/1038 |
dc.relation.uri.none.fl_str_mv |
https://revistas.unab.edu.co/index.php/rcc/article/view/1066 |
dc.relation.uri.spa.fl_str_mv |
http://hdl.handle.net/20.500.12749/20373 |
dc.relation.references.none.fl_str_mv |
R. Abascal, B. Rumpler, J-M. Pinon. Conception d’une Ontologie dans le Contexte d’une Bibliothèque Numérique. ISKO 2003 (International Society for Knowledge Organization), Grenoble, France, July 3-4, 2003. R. Abascal, B. Rumpler, J-M. Pinon. Improving information retrieval in digital theses using metadata. International Conference on Electronic Publishing (ELPUB 2002). Karlovy Vary, Czech Republic, Elpub 2002 Proceedings pp. 307-316, ISBN 3-897-0035, November 6-8, 2002. D. Bourigault, C. Fabre. Approche Linguistique pour l’Analyse Syntaxique de Corpus. Cahiers de grammaire 25, pp. 131-151, 2000. J. Carlberger et al. Improving Precision in Information Retrieval for Swedish using Stemming. 13th Nordic Conference on Computational Linguistics (NoDaLiDa’01), Upsala, May 21-22, 2001. Copernic Summarizer 2.0, Copernic Technologies Inc, updated in December, 2001. [online] Available at: <http://www.copernic.com/en/products/summarizer/> (24/08/2004). B. Daille, J. Royauté, X. Polanco. Evaluation d’une Plate-forme d’Indexation de Termes Complexes. Traitement Automatique des Langues (TAL), 41(2), pp. 395-422, 2000. E. Frank et al. Domain-Specific Keyphrase Extraction, Proceedings of the Sixteenth International Joint Conference on Artificial Intelligence (IJCAI-99), Morgan Kaufmann, ed., pp. 668-673, ISBN:1-55860-613-0, 1999. K. Frantzi, S. Ananladou. Automatic Term Recognition using Contextual Cues. Third DELOS Workshop. Cross-Language Information Retrieval. Zurich, Suisse, March 5-7, 1997. C. Gutwin et al. Improving browsing in digital libraries with keyphrase indexes. Journal of Decision Support Systems, 27, pp. 81-104, 1999. S. Jones, G. W. Paynter. Human evaluation of Kea, an automatic keyphrasing system. Proceedings of the First ACM/IEEE-CS Joint Conference on Digital Libraries, Roanoke, Virginia, June 24-29, 2001, ACM Press, pp.148-156. S. Jones, S. Lundy, G. W. Paynter. Interactive Document Summarisation Using Automatically Extracted Keyphrases. Proceedings of the 35th Hawaii International Conference on System Sciences, 2002. M. C. L'Homme. Nouvelles technologies et recherche terminologique, Techniques d'extraction des données terminologiques et leur impact sur le travail du terminographe. L'impact des nouvelles technologies sur la gestion terminologique, University York, Toronto, August 2001. Nomino 4.2.22, updated in July 25, 2001. [online] Available at: <http://www.ling.uqam.ca/nomino/> (24/08/2004). C. Orasan. Building Annotated Resources for Automatic Text Summarization, Proceedings of the Third International Conference on Language Resources and Evaluation (LREC-2002), Las Palmas de Gran Canaria, España, May 2002. A. Ribeiro. V. Fresno. A Multi Criteria Function to Concept Extraction in HTML Environment. IC’2001, Las Vegas Nevada, USA. Volume 1, pp. 1-6, 2001. G. Salton. M. McGill, Introduction to modern information retrieval, McGraw-Hill Book Company, 1983. TerminologyExtractor 3.0. Chamblon Systems Inc. [online] Available at: <http://www.chamblon.com/terminologyextractor.htm> (24/08/2004). M. Van Campenhoudt. Les voies de recherche actuelle en terminologie et en terminotique. 7e Université d'Automne en Terminologie, En bons termes, Paris, La Maison du dictionnaire, pp. 109-119, 1998. Xerox Terminology Suite 2.0. XTS the Terminology Suite, updated in February, 2001. [online] Available at: <http://www.mkms.xerox.com/> (24/08/2004). |
dc.rights.none.fl_str_mv |
Derechos de autor 2005 Revista Colombiana de Computación |
dc.rights.coar.fl_str_mv |
http://purl.org/coar/access_right/c_abf2 |
dc.rights.uri.*.fl_str_mv |
http://creativecommons.org/licenses/by-nc-sa/4.0/ |
dc.rights.uri.none.fl_str_mv |
http://creativecommons.org/licenses/by-nc-nd/2.5/co/ |
dc.rights.creativecommons.*.fl_str_mv |
Attribution-NonCommercial-ShareAlike 4.0 International |
rights_invalid_str_mv |
Derechos de autor 2005 Revista Colombiana de Computación http://creativecommons.org/licenses/by-nc-sa/4.0/ http://creativecommons.org/licenses/by-nc-nd/2.5/co/ Attribution-NonCommercial-ShareAlike 4.0 International http://purl.org/coar/access_right/c_abf2 |
dc.format.mimetype.spa.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidad Autónoma de Bucaramanga UNAB |
publisher.none.fl_str_mv |
Universidad Autónoma de Bucaramanga UNAB |
dc.source.none.fl_str_mv |
Revista Colombiana de Computación; Vol. 6 Núm. 1 (2005): Revista Colombiana de Computación; 1-18 |
institution |
Universidad Autónoma de Bucaramanga - UNAB |
bitstream.url.fl_str_mv |
https://repository.unab.edu.co/bitstream/20.500.12749/9024/1/2005_Articulo_Evaluaci%c3%b3n%20de%20herramientas%20de%20extracci%c3%b3n%20autom%c3%a1tica%20de%20conceptos%20dentro%20de%20un%20ambiente%20de%20biblioteca%20digital.pdf https://repository.unab.edu.co/bitstream/20.500.12749/9024/2/2005_Articulo_Evaluaci%c3%b3n%20de%20herramientas%20de%20extracci%c3%b3n%20autom%c3%a1tica%20de%20conceptos%20dentro%20de%20un%20ambiente%20de%20biblioteca%20digital.pdf.jpg |
bitstream.checksum.fl_str_mv |
42118611c5d264ce5e763b4c0f852caa a9cb19008a420a859af68399e6f84993 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Repositorio Institucional | Universidad Autónoma de Bucaramanga - UNAB |
repository.mail.fl_str_mv |
repositorio@unab.edu.co |
_version_ |
1814278245773737984 |
spelling |
Abascal, Rocíocf63e285-6459-4248-99da-6ad2e1320951-1Rumpler, Béatrice641af841-fb42-4981-a7e6-1d1c785bbdd7-12020-10-27T00:21:11Z2020-10-27T00:21:11Z2005-06-012539-21151657-2831http://hdl.handle.net/20.500.12749/9024instname:Universidad Autónoma de Bucaramanga UNABrepourl:https://repository.unab.edu.coEl rápido avance de la tecnología ha originado la proliferación de fuentes de información digital. Esta evolución informática ha provocado la creación de bibliotecas digitales que han ido convirtiendose poco a poco en un gran pilar para la difusión del conocimiento. Sin embargo, la información contenida en las bibliotecas digitales aún no está descrita totalmente y su explotación es aún insuficiente. Recientemente, se ha comprobado que la descripción de la información usando “metadatos” puede ser primordial para el mejoramiento de la consulta de la información dentro de una biblioteca digital. Nuestro enfoque está basado en la creación e introducción de nuevos “metadatos” capaces de describir, en nuestro caso, las tesis doctorales de una biblioteca digital. Estos “metadatos” corresponden a los conceptos más importantes de cada una de las tesis. Actualmente, la identificación manual de conceptos es un largo proceso llevado a cabo por un especialista del área. Por lo tanto, es importante hacer uso de herramientas capaces de extraer automáticamente conceptos. En este artículo analizamos cuatro herramientas de PLN (Procesamiento del Lenguaje Natural) capaces de extraer automáticamente los conceptos claves de un corpus. Estas herramientas son: (1) TerminologyExtractor de Chamblon Systems Inc., (2) Xerox Terminology Suite de Xerox, (3) Nomino de Nomino Technologies y (4) Copernic Summarizer de NRC. Este artículo presenta también un prototipo de herramienta de anotación desarrollado para insertar de manera automática conceptos a las tesis digitales.The rapid advance of technology has led to the proliferation of digital information sources. This computer evolution has led to the creation of digital libraries that have been gradually becoming a great pillar for the dissemination of knowledge. However, the information contained in digital libraries is not yet fully described and its use is still insufficient. Recently, it has been found that the description of information using "metadata" can be essential for improving the query of information inside a digital library. Our approach is based on the creation and introduction of new “metadata” capable of describing, in our case, the doctoral theses of a library digital. These “metadata” correspond to the most important concepts of each of the thesis. Currently, the manual identification of concepts is a long process carried out by an area specialist. Therefore, it is important to make use of tools capable of extracting automatically concepts. In this article we analyze four NLP tools (Natural Language Processing) capable of automatically extracting the key concepts of a corpus. These tools are: (1) TerminologyExtractor from Chamblon Systems Inc., (2) Xerox Terminology Suite from Xerox, (3) Nomino from Nomino Technologies and (4) Copernic NRC Summary. This article also presents a prototype of an annotation tool developed to automatically insert concepts into digital theses.application/pdfspaUniversidad Autónoma de Bucaramanga UNABhttps://revistas.unab.edu.co/index.php/rcc/article/view/1066/1038https://revistas.unab.edu.co/index.php/rcc/article/view/1066http://hdl.handle.net/20.500.12749/20373R. Abascal, B. Rumpler, J-M. Pinon. Conception d’une Ontologie dans le Contexte d’une Bibliothèque Numérique. ISKO 2003 (International Society for Knowledge Organization), Grenoble, France, July 3-4, 2003.R. Abascal, B. Rumpler, J-M. Pinon. Improving information retrieval in digital theses using metadata. International Conference on Electronic Publishing (ELPUB 2002). Karlovy Vary, Czech Republic, Elpub 2002 Proceedings pp. 307-316, ISBN 3-897-0035, November 6-8, 2002.D. Bourigault, C. Fabre. Approche Linguistique pour l’Analyse Syntaxique de Corpus. Cahiers de grammaire 25, pp. 131-151, 2000.J. Carlberger et al. Improving Precision in Information Retrieval for Swedish using Stemming. 13th Nordic Conference on Computational Linguistics (NoDaLiDa’01), Upsala, May 21-22, 2001.Copernic Summarizer 2.0, Copernic Technologies Inc, updated in December, 2001. [online] Available at: <http://www.copernic.com/en/products/summarizer/> (24/08/2004).B. Daille, J. Royauté, X. Polanco. Evaluation d’une Plate-forme d’Indexation de Termes Complexes. Traitement Automatique des Langues (TAL), 41(2), pp. 395-422, 2000.E. Frank et al. Domain-Specific Keyphrase Extraction, Proceedings of the Sixteenth International Joint Conference on Artificial Intelligence (IJCAI-99), Morgan Kaufmann, ed., pp. 668-673, ISBN:1-55860-613-0, 1999.K. Frantzi, S. Ananladou. Automatic Term Recognition using Contextual Cues. Third DELOS Workshop. Cross-Language Information Retrieval. Zurich, Suisse, March 5-7, 1997.C. Gutwin et al. Improving browsing in digital libraries with keyphrase indexes. Journal of Decision Support Systems, 27, pp. 81-104, 1999.S. Jones, G. W. Paynter. Human evaluation of Kea, an automatic keyphrasing system. Proceedings of the First ACM/IEEE-CS Joint Conference on Digital Libraries, Roanoke, Virginia, June 24-29, 2001, ACM Press, pp.148-156.S. Jones, S. Lundy, G. W. Paynter. Interactive Document Summarisation Using Automatically Extracted Keyphrases. Proceedings of the 35th Hawaii International Conference on System Sciences, 2002.M. C. L'Homme. Nouvelles technologies et recherche terminologique, Techniques d'extraction des données terminologiques et leur impact sur le travail du terminographe. L'impact des nouvelles technologies sur la gestion terminologique, University York, Toronto, August 2001.Nomino 4.2.22, updated in July 25, 2001. [online] Available at: <http://www.ling.uqam.ca/nomino/> (24/08/2004).C. Orasan. Building Annotated Resources for Automatic Text Summarization, Proceedings of the Third International Conference on Language Resources and Evaluation (LREC-2002), Las Palmas de Gran Canaria, España, May 2002.A. Ribeiro. V. Fresno. A Multi Criteria Function to Concept Extraction in HTML Environment. IC’2001, Las Vegas Nevada, USA. Volume 1, pp. 1-6, 2001.G. Salton. M. McGill, Introduction to modern information retrieval, McGraw-Hill Book Company, 1983.TerminologyExtractor 3.0. Chamblon Systems Inc. [online] Available at: <http://www.chamblon.com/terminologyextractor.htm> (24/08/2004).M. Van Campenhoudt. Les voies de recherche actuelle en terminologie et en terminotique. 7e Université d'Automne en Terminologie, En bons termes, Paris, La Maison du dictionnaire, pp. 109-119, 1998.Xerox Terminology Suite 2.0. XTS the Terminology Suite, updated in February, 2001. [online] Available at: <http://www.mkms.xerox.com/> (24/08/2004).Derechos de autor 2005 Revista Colombiana de Computaciónhttp://creativecommons.org/licenses/by-nc-sa/4.0/http://creativecommons.org/licenses/by-nc-nd/2.5/co/Attribution-NonCommercial-ShareAlike 4.0 Internationalhttp://purl.org/coar/access_right/c_abf2Revista Colombiana de Computación; Vol. 6 Núm. 1 (2005): Revista Colombiana de Computación; 1-18Innovaciones tecnológicasCiencia de los computadoresDesarrollo de tecnologíaIngeniería de sistemasInvestigacionesTecnologías de la información y las comunicacionesTIC´sTechnological innovationsComputer scienceTechnology developmentSystems engineeringInvestigationsInformation and communication technologiesICT'sDigital libraryMetadataNatural language processingInformation extractionAnnotationInformation searchInnovaciones tecnológicasCiencias de la computaciónDesarrollo tecnológicoIngeniería de sistemasInvestigacionesTecnologías de la información y la comunicaciónBiblioteca digitalMetadatosProcesamiento del lenguaje naturalExtracción de informaciónAnotaciónBúsqueda de informaciónEvaluación de herramientas de extracción automática de conceptos dentro de un ambiente de biblioteca digitalEvaluation of automatic concept extraction tools within a digital library environmentinfo:eu-repo/semantics/articleArtículohttp://purl.org/coar/resource_type/c_7a1fhttp://purl.org/coar/resource_type/c_2df8fbb1http://purl.org/redcol/resource_type/CJournalArticleORIGINAL2005_Articulo_Evaluación de herramientas de extracción automática de conceptos dentro de un ambiente de biblioteca digital.pdf2005_Articulo_Evaluación de herramientas de extracción automática de conceptos dentro de un ambiente de biblioteca digital.pdfArtículoapplication/pdf482979https://repository.unab.edu.co/bitstream/20.500.12749/9024/1/2005_Articulo_Evaluaci%c3%b3n%20de%20herramientas%20de%20extracci%c3%b3n%20autom%c3%a1tica%20de%20conceptos%20dentro%20de%20un%20ambiente%20de%20biblioteca%20digital.pdf42118611c5d264ce5e763b4c0f852caaMD51open accessTHUMBNAIL2005_Articulo_Evaluación de herramientas de extracción automática de conceptos dentro de un ambiente de biblioteca digital.pdf.jpg2005_Articulo_Evaluación de herramientas de extracción automática de conceptos dentro de un ambiente de biblioteca digital.pdf.jpgIM Thumbnailimage/jpeg8217https://repository.unab.edu.co/bitstream/20.500.12749/9024/2/2005_Articulo_Evaluaci%c3%b3n%20de%20herramientas%20de%20extracci%c3%b3n%20autom%c3%a1tica%20de%20conceptos%20dentro%20de%20un%20ambiente%20de%20biblioteca%20digital.pdf.jpga9cb19008a420a859af68399e6f84993MD52open access20.500.12749/9024oai:repository.unab.edu.co:20.500.12749/90242023-07-04 10:07:17.579open accessRepositorio Institucional | Universidad Autónoma de Bucaramanga - UNABrepositorio@unab.edu.co |