Evaluación de herramientas de extracción automática de conceptos dentro de un ambiente de biblioteca digital

El rápido avance de la tecnología ha originado la proliferación de fuentes de información digital. Esta evolución informática ha provocado la creación de bibliotecas digitales que han ido convirtiendose poco a poco en un gran pilar para la difusión del conocimiento. Sin embargo, la información conte...

Full description

Autores:
Abascal, Rocío
Rumpler, Béatrice
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
2005
Institución:
Universidad Autónoma de Bucaramanga - UNAB
Repositorio:
Repositorio UNAB
Idioma:
spa
OAI Identifier:
oai:repository.unab.edu.co:20.500.12749/9024
Acceso en línea:
http://hdl.handle.net/20.500.12749/9024
Palabra clave:
Innovaciones tecnológicas
Ciencia de los computadores
Desarrollo de tecnología
Ingeniería de sistemas
Investigaciones
Tecnologías de la información y las comunicaciones
TIC´s
Technological innovations
Computer science
Technology development
Systems engineering
Investigations
Information and communication technologies
ICT's
Digital library
Metadata
Natural language processing
Information extraction
Annotation
Information search
Innovaciones tecnológicas
Ciencias de la computación
Desarrollo tecnológico
Ingeniería de sistemas
Investigaciones
Tecnologías de la información y la comunicación
Biblioteca digital
Metadatos
Procesamiento del lenguaje natural
Extracción de información
Anotación
Búsqueda de información
Rights
License
Derechos de autor 2005 Revista Colombiana de Computación
id UNAB2_51335999294f495834bfded0cb63e75d
oai_identifier_str oai:repository.unab.edu.co:20.500.12749/9024
network_acronym_str UNAB2
network_name_str Repositorio UNAB
repository_id_str
dc.title.spa.fl_str_mv Evaluación de herramientas de extracción automática de conceptos dentro de un ambiente de biblioteca digital
dc.title.translated.eng.fl_str_mv Evaluation of automatic concept extraction tools within a digital library environment
title Evaluación de herramientas de extracción automática de conceptos dentro de un ambiente de biblioteca digital
spellingShingle Evaluación de herramientas de extracción automática de conceptos dentro de un ambiente de biblioteca digital
Innovaciones tecnológicas
Ciencia de los computadores
Desarrollo de tecnología
Ingeniería de sistemas
Investigaciones
Tecnologías de la información y las comunicaciones
TIC´s
Technological innovations
Computer science
Technology development
Systems engineering
Investigations
Information and communication technologies
ICT's
Digital library
Metadata
Natural language processing
Information extraction
Annotation
Information search
Innovaciones tecnológicas
Ciencias de la computación
Desarrollo tecnológico
Ingeniería de sistemas
Investigaciones
Tecnologías de la información y la comunicación
Biblioteca digital
Metadatos
Procesamiento del lenguaje natural
Extracción de información
Anotación
Búsqueda de información
title_short Evaluación de herramientas de extracción automática de conceptos dentro de un ambiente de biblioteca digital
title_full Evaluación de herramientas de extracción automática de conceptos dentro de un ambiente de biblioteca digital
title_fullStr Evaluación de herramientas de extracción automática de conceptos dentro de un ambiente de biblioteca digital
title_full_unstemmed Evaluación de herramientas de extracción automática de conceptos dentro de un ambiente de biblioteca digital
title_sort Evaluación de herramientas de extracción automática de conceptos dentro de un ambiente de biblioteca digital
dc.creator.fl_str_mv Abascal, Rocío
Rumpler, Béatrice
dc.contributor.author.spa.fl_str_mv Abascal, Rocío
Rumpler, Béatrice
dc.subject.none.fl_str_mv Innovaciones tecnológicas
Ciencia de los computadores
Desarrollo de tecnología
Ingeniería de sistemas
Investigaciones
Tecnologías de la información y las comunicaciones
TIC´s
topic Innovaciones tecnológicas
Ciencia de los computadores
Desarrollo de tecnología
Ingeniería de sistemas
Investigaciones
Tecnologías de la información y las comunicaciones
TIC´s
Technological innovations
Computer science
Technology development
Systems engineering
Investigations
Information and communication technologies
ICT's
Digital library
Metadata
Natural language processing
Information extraction
Annotation
Information search
Innovaciones tecnológicas
Ciencias de la computación
Desarrollo tecnológico
Ingeniería de sistemas
Investigaciones
Tecnologías de la información y la comunicación
Biblioteca digital
Metadatos
Procesamiento del lenguaje natural
Extracción de información
Anotación
Búsqueda de información
dc.subject.keywords.eng.fl_str_mv Technological innovations
Computer science
Technology development
Systems engineering
Investigations
Information and communication technologies
ICT's
Digital library
Metadata
Natural language processing
Information extraction
Annotation
Information search
dc.subject.lemb.spa.fl_str_mv Innovaciones tecnológicas
Ciencias de la computación
Desarrollo tecnológico
Ingeniería de sistemas
Investigaciones
Tecnologías de la información y la comunicación
dc.subject.proposal.spa.fl_str_mv Biblioteca digital
Metadatos
Procesamiento del lenguaje natural
Extracción de información
Anotación
Búsqueda de información
description El rápido avance de la tecnología ha originado la proliferación de fuentes de información digital. Esta evolución informática ha provocado la creación de bibliotecas digitales que han ido convirtiendose poco a poco en un gran pilar para la difusión del conocimiento. Sin embargo, la información contenida en las bibliotecas digitales aún no está descrita totalmente y su explotación es aún insuficiente. Recientemente, se ha comprobado que la descripción de la información usando “metadatos” puede ser primordial para el mejoramiento de la consulta de la información dentro de una biblioteca digital. Nuestro enfoque está basado en la creación e introducción de nuevos “metadatos” capaces de describir, en nuestro caso, las tesis doctorales de una biblioteca digital. Estos “metadatos” corresponden a los conceptos más importantes de cada una de las tesis. Actualmente, la identificación manual de conceptos es un largo proceso llevado a cabo por un especialista del área. Por lo tanto, es importante hacer uso de herramientas capaces de extraer automáticamente conceptos. En este artículo analizamos cuatro herramientas de PLN (Procesamiento del Lenguaje Natural) capaces de extraer automáticamente los conceptos claves de un corpus. Estas herramientas son: (1) TerminologyExtractor de Chamblon Systems Inc., (2) Xerox Terminology Suite de Xerox, (3) Nomino de Nomino Technologies y (4) Copernic Summarizer de NRC. Este artículo presenta también un prototipo de herramienta de anotación desarrollado para insertar de manera automática conceptos a las tesis digitales.
publishDate 2005
dc.date.issued.none.fl_str_mv 2005-06-01
dc.date.accessioned.none.fl_str_mv 2020-10-27T00:21:11Z
dc.date.available.none.fl_str_mv 2020-10-27T00:21:11Z
dc.type.coar.fl_str_mv http://purl.org/coar/resource_type/c_2df8fbb1
dc.type.driver.none.fl_str_mv info:eu-repo/semantics/article
dc.type.local.spa.fl_str_mv Artículo
dc.type.coar.none.fl_str_mv http://purl.org/coar/resource_type/c_7a1f
dc.type.redcol.none.fl_str_mv http://purl.org/redcol/resource_type/CJournalArticle
format http://purl.org/coar/resource_type/c_7a1f
dc.identifier.issn.none.fl_str_mv 2539-2115
1657-2831
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/20.500.12749/9024
dc.identifier.instname.spa.fl_str_mv instname:Universidad Autónoma de Bucaramanga UNAB
dc.identifier.repourl.none.fl_str_mv repourl:https://repository.unab.edu.co
identifier_str_mv 2539-2115
1657-2831
instname:Universidad Autónoma de Bucaramanga UNAB
repourl:https://repository.unab.edu.co
url http://hdl.handle.net/20.500.12749/9024
dc.language.iso.spa.fl_str_mv spa
language spa
dc.relation.none.fl_str_mv https://revistas.unab.edu.co/index.php/rcc/article/view/1066/1038
dc.relation.uri.none.fl_str_mv https://revistas.unab.edu.co/index.php/rcc/article/view/1066
dc.relation.uri.spa.fl_str_mv http://hdl.handle.net/20.500.12749/20373
dc.relation.references.none.fl_str_mv R. Abascal, B. Rumpler, J-M. Pinon. Conception d’une Ontologie dans le Contexte d’une Bibliothèque Numérique. ISKO 2003 (International Society for Knowledge Organization), Grenoble, France, July 3-4, 2003.
R. Abascal, B. Rumpler, J-M. Pinon. Improving information retrieval in digital theses using metadata. International Conference on Electronic Publishing (ELPUB 2002). Karlovy Vary, Czech Republic, Elpub 2002 Proceedings pp. 307-316, ISBN 3-897-0035, November 6-8, 2002.
D. Bourigault, C. Fabre. Approche Linguistique pour l’Analyse Syntaxique de Corpus. Cahiers de grammaire 25, pp. 131-151, 2000.
J. Carlberger et al. Improving Precision in Information Retrieval for Swedish using Stemming. 13th Nordic Conference on Computational Linguistics (NoDaLiDa’01), Upsala, May 21-22, 2001.
Copernic Summarizer 2.0, Copernic Technologies Inc, updated in December, 2001. [online] Available at: <http://www.copernic.com/en/products/summarizer/> (24/08/2004).
B. Daille, J. Royauté, X. Polanco. Evaluation d’une Plate-forme d’Indexation de Termes Complexes. Traitement Automatique des Langues (TAL), 41(2), pp. 395-422, 2000.
E. Frank et al. Domain-Specific Keyphrase Extraction, Proceedings of the Sixteenth International Joint Conference on Artificial Intelligence (IJCAI-99), Morgan Kaufmann, ed., pp. 668-673, ISBN:1-55860-613-0, 1999.
K. Frantzi, S. Ananladou. Automatic Term Recognition using Contextual Cues. Third DELOS Workshop. Cross-Language Information Retrieval. Zurich, Suisse, March 5-7, 1997.
C. Gutwin et al. Improving browsing in digital libraries with keyphrase indexes. Journal of Decision Support Systems, 27, pp. 81-104, 1999.
S. Jones, G. W. Paynter. Human evaluation of Kea, an automatic keyphrasing system. Proceedings of the First ACM/IEEE-CS Joint Conference on Digital Libraries, Roanoke, Virginia, June 24-29, 2001, ACM Press, pp.148-156.
S. Jones, S. Lundy, G. W. Paynter. Interactive Document Summarisation Using Automatically Extracted Keyphrases. Proceedings of the 35th Hawaii International Conference on System Sciences, 2002.
M. C. L'Homme. Nouvelles technologies et recherche terminologique, Techniques d'extraction des données terminologiques et leur impact sur le travail du terminographe. L'impact des nouvelles technologies sur la gestion terminologique, University York, Toronto, August 2001.
Nomino 4.2.22, updated in July 25, 2001. [online] Available at: <http://www.ling.uqam.ca/nomino/> (24/08/2004).
C. Orasan. Building Annotated Resources for Automatic Text Summarization, Proceedings of the Third International Conference on Language Resources and Evaluation (LREC-2002), Las Palmas de Gran Canaria, España, May 2002.
A. Ribeiro. V. Fresno. A Multi Criteria Function to Concept Extraction in HTML Environment. IC’2001, Las Vegas Nevada, USA. Volume 1, pp. 1-6, 2001.
G. Salton. M. McGill, Introduction to modern information retrieval, McGraw-Hill Book Company, 1983.
TerminologyExtractor 3.0. Chamblon Systems Inc. [online] Available at: <http://www.chamblon.com/terminologyextractor.htm> (24/08/2004).
M. Van Campenhoudt. Les voies de recherche actuelle en terminologie et en terminotique. 7e Université d'Automne en Terminologie, En bons termes, Paris, La Maison du dictionnaire, pp. 109-119, 1998.
Xerox Terminology Suite 2.0. XTS the Terminology Suite, updated in February, 2001. [online] Available at: <http://www.mkms.xerox.com/> (24/08/2004).
dc.rights.none.fl_str_mv Derechos de autor 2005 Revista Colombiana de Computación
dc.rights.coar.fl_str_mv http://purl.org/coar/access_right/c_abf2
dc.rights.uri.*.fl_str_mv http://creativecommons.org/licenses/by-nc-sa/4.0/
dc.rights.uri.none.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/2.5/co/
dc.rights.creativecommons.*.fl_str_mv Attribution-NonCommercial-ShareAlike 4.0 International
rights_invalid_str_mv Derechos de autor 2005 Revista Colombiana de Computación
http://creativecommons.org/licenses/by-nc-sa/4.0/
http://creativecommons.org/licenses/by-nc-nd/2.5/co/
Attribution-NonCommercial-ShareAlike 4.0 International
http://purl.org/coar/access_right/c_abf2
dc.format.mimetype.spa.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidad Autónoma de Bucaramanga UNAB
publisher.none.fl_str_mv Universidad Autónoma de Bucaramanga UNAB
dc.source.none.fl_str_mv Revista Colombiana de Computación; Vol. 6 Núm. 1 (2005): Revista Colombiana de Computación; 1-18
institution Universidad Autónoma de Bucaramanga - UNAB
bitstream.url.fl_str_mv https://repository.unab.edu.co/bitstream/20.500.12749/9024/1/2005_Articulo_Evaluaci%c3%b3n%20de%20herramientas%20de%20extracci%c3%b3n%20autom%c3%a1tica%20de%20conceptos%20dentro%20de%20un%20ambiente%20de%20biblioteca%20digital.pdf
https://repository.unab.edu.co/bitstream/20.500.12749/9024/2/2005_Articulo_Evaluaci%c3%b3n%20de%20herramientas%20de%20extracci%c3%b3n%20autom%c3%a1tica%20de%20conceptos%20dentro%20de%20un%20ambiente%20de%20biblioteca%20digital.pdf.jpg
bitstream.checksum.fl_str_mv 42118611c5d264ce5e763b4c0f852caa
a9cb19008a420a859af68399e6f84993
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositorio Institucional | Universidad Autónoma de Bucaramanga - UNAB
repository.mail.fl_str_mv repositorio@unab.edu.co
_version_ 1814278245773737984
spelling Abascal, Rocíocf63e285-6459-4248-99da-6ad2e1320951-1Rumpler, Béatrice641af841-fb42-4981-a7e6-1d1c785bbdd7-12020-10-27T00:21:11Z2020-10-27T00:21:11Z2005-06-012539-21151657-2831http://hdl.handle.net/20.500.12749/9024instname:Universidad Autónoma de Bucaramanga UNABrepourl:https://repository.unab.edu.coEl rápido avance de la tecnología ha originado la proliferación de fuentes de información digital. Esta evolución informática ha provocado la creación de bibliotecas digitales que han ido convirtiendose poco a poco en un gran pilar para la difusión del conocimiento. Sin embargo, la información contenida en las bibliotecas digitales aún no está descrita totalmente y su explotación es aún insuficiente. Recientemente, se ha comprobado que la descripción de la información usando “metadatos” puede ser primordial para el mejoramiento de la consulta de la información dentro de una biblioteca digital. Nuestro enfoque está basado en la creación e introducción de nuevos “metadatos” capaces de describir, en nuestro caso, las tesis doctorales de una biblioteca digital. Estos “metadatos” corresponden a los conceptos más importantes de cada una de las tesis. Actualmente, la identificación manual de conceptos es un largo proceso llevado a cabo por un especialista del área. Por lo tanto, es importante hacer uso de herramientas capaces de extraer automáticamente conceptos. En este artículo analizamos cuatro herramientas de PLN (Procesamiento del Lenguaje Natural) capaces de extraer automáticamente los conceptos claves de un corpus. Estas herramientas son: (1) TerminologyExtractor de Chamblon Systems Inc., (2) Xerox Terminology Suite de Xerox, (3) Nomino de Nomino Technologies y (4) Copernic Summarizer de NRC. Este artículo presenta también un prototipo de herramienta de anotación desarrollado para insertar de manera automática conceptos a las tesis digitales.The rapid advance of technology has led to the proliferation of digital information sources. This computer evolution has led to the creation of digital libraries that have been gradually becoming a great pillar for the dissemination of knowledge. However, the information contained in digital libraries is not yet fully described and its use is still insufficient. Recently, it has been found that the description of information using "metadata" can be essential for improving the query of information inside a digital library. Our approach is based on the creation and introduction of new “metadata” capable of describing, in our case, the doctoral theses of a library digital. These “metadata” correspond to the most important concepts of each of the thesis. Currently, the manual identification of concepts is a long process carried out by an area specialist. Therefore, it is important to make use of tools capable of extracting automatically concepts. In this article we analyze four NLP tools (Natural Language Processing) capable of automatically extracting the key concepts of a corpus. These tools are: (1) TerminologyExtractor from Chamblon Systems Inc., (2) Xerox Terminology Suite from Xerox, (3) Nomino from Nomino Technologies and (4) Copernic NRC Summary. This article also presents a prototype of an annotation tool developed to automatically insert concepts into digital theses.application/pdfspaUniversidad Autónoma de Bucaramanga UNABhttps://revistas.unab.edu.co/index.php/rcc/article/view/1066/1038https://revistas.unab.edu.co/index.php/rcc/article/view/1066http://hdl.handle.net/20.500.12749/20373R. Abascal, B. Rumpler, J-M. Pinon. Conception d’une Ontologie dans le Contexte d’une Bibliothèque Numérique. ISKO 2003 (International Society for Knowledge Organization), Grenoble, France, July 3-4, 2003.R. Abascal, B. Rumpler, J-M. Pinon. Improving information retrieval in digital theses using metadata. International Conference on Electronic Publishing (ELPUB 2002). Karlovy Vary, Czech Republic, Elpub 2002 Proceedings pp. 307-316, ISBN 3-897-0035, November 6-8, 2002.D. Bourigault, C. Fabre. Approche Linguistique pour l’Analyse Syntaxique de Corpus. Cahiers de grammaire 25, pp. 131-151, 2000.J. Carlberger et al. Improving Precision in Information Retrieval for Swedish using Stemming. 13th Nordic Conference on Computational Linguistics (NoDaLiDa’01), Upsala, May 21-22, 2001.Copernic Summarizer 2.0, Copernic Technologies Inc, updated in December, 2001. [online] Available at: <http://www.copernic.com/en/products/summarizer/> (24/08/2004).B. Daille, J. Royauté, X. Polanco. Evaluation d’une Plate-forme d’Indexation de Termes Complexes. Traitement Automatique des Langues (TAL), 41(2), pp. 395-422, 2000.E. Frank et al. Domain-Specific Keyphrase Extraction, Proceedings of the Sixteenth International Joint Conference on Artificial Intelligence (IJCAI-99), Morgan Kaufmann, ed., pp. 668-673, ISBN:1-55860-613-0, 1999.K. Frantzi, S. Ananladou. Automatic Term Recognition using Contextual Cues. Third DELOS Workshop. Cross-Language Information Retrieval. Zurich, Suisse, March 5-7, 1997.C. Gutwin et al. Improving browsing in digital libraries with keyphrase indexes. Journal of Decision Support Systems, 27, pp. 81-104, 1999.S. Jones, G. W. Paynter. Human evaluation of Kea, an automatic keyphrasing system. Proceedings of the First ACM/IEEE-CS Joint Conference on Digital Libraries, Roanoke, Virginia, June 24-29, 2001, ACM Press, pp.148-156.S. Jones, S. Lundy, G. W. Paynter. Interactive Document Summarisation Using Automatically Extracted Keyphrases. Proceedings of the 35th Hawaii International Conference on System Sciences, 2002.M. C. L'Homme. Nouvelles technologies et recherche terminologique, Techniques d'extraction des données terminologiques et leur impact sur le travail du terminographe. L'impact des nouvelles technologies sur la gestion terminologique, University York, Toronto, August 2001.Nomino 4.2.22, updated in July 25, 2001. [online] Available at: <http://www.ling.uqam.ca/nomino/> (24/08/2004).C. Orasan. Building Annotated Resources for Automatic Text Summarization, Proceedings of the Third International Conference on Language Resources and Evaluation (LREC-2002), Las Palmas de Gran Canaria, España, May 2002.A. Ribeiro. V. Fresno. A Multi Criteria Function to Concept Extraction in HTML Environment. IC’2001, Las Vegas Nevada, USA. Volume 1, pp. 1-6, 2001.G. Salton. M. McGill, Introduction to modern information retrieval, McGraw-Hill Book Company, 1983.TerminologyExtractor 3.0. Chamblon Systems Inc. [online] Available at: <http://www.chamblon.com/terminologyextractor.htm> (24/08/2004).M. Van Campenhoudt. Les voies de recherche actuelle en terminologie et en terminotique. 7e Université d'Automne en Terminologie, En bons termes, Paris, La Maison du dictionnaire, pp. 109-119, 1998.Xerox Terminology Suite 2.0. XTS the Terminology Suite, updated in February, 2001. [online] Available at: <http://www.mkms.xerox.com/> (24/08/2004).Derechos de autor 2005 Revista Colombiana de Computaciónhttp://creativecommons.org/licenses/by-nc-sa/4.0/http://creativecommons.org/licenses/by-nc-nd/2.5/co/Attribution-NonCommercial-ShareAlike 4.0 Internationalhttp://purl.org/coar/access_right/c_abf2Revista Colombiana de Computación; Vol. 6 Núm. 1 (2005): Revista Colombiana de Computación; 1-18Innovaciones tecnológicasCiencia de los computadoresDesarrollo de tecnologíaIngeniería de sistemasInvestigacionesTecnologías de la información y las comunicacionesTIC´sTechnological innovationsComputer scienceTechnology developmentSystems engineeringInvestigationsInformation and communication technologiesICT'sDigital libraryMetadataNatural language processingInformation extractionAnnotationInformation searchInnovaciones tecnológicasCiencias de la computaciónDesarrollo tecnológicoIngeniería de sistemasInvestigacionesTecnologías de la información y la comunicaciónBiblioteca digitalMetadatosProcesamiento del lenguaje naturalExtracción de informaciónAnotaciónBúsqueda de informaciónEvaluación de herramientas de extracción automática de conceptos dentro de un ambiente de biblioteca digitalEvaluation of automatic concept extraction tools within a digital library environmentinfo:eu-repo/semantics/articleArtículohttp://purl.org/coar/resource_type/c_7a1fhttp://purl.org/coar/resource_type/c_2df8fbb1http://purl.org/redcol/resource_type/CJournalArticleORIGINAL2005_Articulo_Evaluación de herramientas de extracción automática de conceptos dentro de un ambiente de biblioteca digital.pdf2005_Articulo_Evaluación de herramientas de extracción automática de conceptos dentro de un ambiente de biblioteca digital.pdfArtículoapplication/pdf482979https://repository.unab.edu.co/bitstream/20.500.12749/9024/1/2005_Articulo_Evaluaci%c3%b3n%20de%20herramientas%20de%20extracci%c3%b3n%20autom%c3%a1tica%20de%20conceptos%20dentro%20de%20un%20ambiente%20de%20biblioteca%20digital.pdf42118611c5d264ce5e763b4c0f852caaMD51open accessTHUMBNAIL2005_Articulo_Evaluación de herramientas de extracción automática de conceptos dentro de un ambiente de biblioteca digital.pdf.jpg2005_Articulo_Evaluación de herramientas de extracción automática de conceptos dentro de un ambiente de biblioteca digital.pdf.jpgIM Thumbnailimage/jpeg8217https://repository.unab.edu.co/bitstream/20.500.12749/9024/2/2005_Articulo_Evaluaci%c3%b3n%20de%20herramientas%20de%20extracci%c3%b3n%20autom%c3%a1tica%20de%20conceptos%20dentro%20de%20un%20ambiente%20de%20biblioteca%20digital.pdf.jpga9cb19008a420a859af68399e6f84993MD52open access20.500.12749/9024oai:repository.unab.edu.co:20.500.12749/90242023-07-04 10:07:17.579open accessRepositorio Institucional | Universidad Autónoma de Bucaramanga - UNABrepositorio@unab.edu.co