Framework para el preprocesamiento de texto extraído de la Red Social Twitter

El preprocesamiento de información tiene como propósito fundamental la “manipulación y transformación de los datos en bruto de manera que permita exponer o al menos facilitar la exposición de la información contenida en el arreglo de datos. [1]” Existen diversas herramientas que ofrecen la posibilid...

Full description

Autores:
Alvarado Cobo, Manuel Alejandro
Hurtado Sarria, Manuel Alejandro
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
2013
Institución:
Universidad del Valle
Repositorio:
Repositorio Digital Univalle
Idioma:
spa
OAI Identifier:
oai:bibliotecadigital.univalle.edu.co:10893/16799
Acceso en línea:
https://hdl.handle.net/10893/16799
Palabra clave:
Framework (Programa para computadores)
Procesamiento de textos
Twitter
Procesamiento del Lenguaje natural (computacion)
Rights
openAccess
License
http://purl.org/coar/access_right/c_abf2
Description
Summary:El preprocesamiento de información tiene como propósito fundamental la “manipulación y transformación de los datos en bruto de manera que permita exponer o al menos facilitar la exposición de la información contenida en el arreglo de datos. [1]” Existen diversas herramientas que ofrecen la posibilidad de ejecutar subtareas de la extracci´on de informaci´on y procesamiento de lenguaje natural con este propósito, sin embargo son escasas aquellas que brindan la posibilidad de ejecutar más de una de estas tareas, esto sin mencionar que del mismo modo son escasas aquellas que permiten el tratamiento de datos en idiomas diferentes al inglés. Tomando como fuente de datos a procesar a Internet, debe considerarse que es una fuente inagotable de información, basta y no muy bien ordenada; no obstante dicha información debe tener cierto grado de orden para poder ser tratada por las subtareas de extracci´on de informaci´on y generar resultados útiles a partir de los datos procesados, como por ejemplo en el área del marketing para mejorar ventas o productos, analizar tendencias, entre otros. En el presente documento se expone el proceso de desarrollo de una aplicación que integra diferentes herramientas de preprocesamiento de información adaptadas para el idioma espa˜nol que toma como datos de entrada texto recuperado de la red social Twitter. Inicialmente se implementa un módulo que permite recuperar los documentos usando palabras clave como criterio de búsqueda. Así mismo se detalla la implementaci´on de m´odulos de corrección de palabras mal escritas, eliminaci´on de palabras vac´ıas, anotación gramatical, reconocimiento de nombres de entidades y el proceso realizado en su integración.