Técnicas de minería de texto aplicadas para la identificación de grupos de patentes afines en la industria del cacao

En la última década el número de patentes ha aumentado cada vez más rápido, y la cantidad de información técnica contenida en ellas dificulta su análisis. Los documentos de patentes permiten la generación de grandes cantidades de datos no estructurados, que pueden procesarse con la ayuda de diferent...

Full description

Autores:
Rodríguez Millán, Paola Milena
Tipo de recurso:
http://purl.org/coar/version/c_b1a7d7d4d402bcce
Fecha de publicación:
2020
Institución:
Universidad Industrial de Santander
Repositorio:
Repositorio UIS
Idioma:
spa
OAI Identifier:
oai:noesis.uis.edu.co:20.500.14071/40226
Acceso en línea:
https://noesis.uis.edu.co/handle/20.500.14071/40226
https://noesis.uis.edu.co
Palabra clave:
Minería de Texto
Análisis de Patentes
K-means
Cacao.
Text Mining
Patent Analysis
K-means
Cocoa.
Rights
License
Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)
Description
Summary:En la última década el número de patentes ha aumentado cada vez más rápido, y la cantidad de información técnica contenida en ellas dificulta su análisis. Los documentos de patentes permiten la generación de grandes cantidades de datos no estructurados, que pueden procesarse con la ayuda de diferentes técnicas de minería de textos. Las bases de datos de patentes disponibles, a través de su interfaz, permite la inclusión y exclusión de aplicaciones estándar en las ecuaciones de búsqueda, posibilitando la extracción efectiva de los datos requeridos para el análisis, dando paso a la aplicación de herramientas automatizadas con el fin de identificar relaciones y tendencias que pueden mejorar la ventaja competitiva. El presente trabajo de investigación tiene como objetivo la identificación de grupos de patentes afines en la industria del cacao por medio de una minería de texto, donde se aplicó una metodología de agrupamiento de documentos no supervisada, basada en datos no estructurados para los que se lleva a cabo un preprocesamiento de los datos, luego se genera un corpus como espacio vectorial de los documentos de patentes, una representación de TF-IDF para finalmente aplicar la técnica de agrupamiento k-means, que permitió identificar relaciones entre las patentes y los grupos generados.