Framework para el preprocesamiento de texto extraído de la Red Social Twitter
El preprocesamiento de información tiene como propósito fundamental la “manipulación y transformación de los datos en bruto de manera que permita exponer o al menos facilitar la exposición de la información contenida en el arreglo de datos. [1]” Existen diversas herramientas que ofrecen la posibilid...
- Autores:
-
Alvarado Cobo, Manuel Alejandro
Hurtado Sarria, Manuel Alejandro
- Tipo de recurso:
- Trabajo de grado de pregrado
- Fecha de publicación:
- 2013
- Institución:
- Universidad del Valle
- Repositorio:
- Repositorio Digital Univalle
- Idioma:
- spa
- OAI Identifier:
- oai:bibliotecadigital.univalle.edu.co:10893/16799
- Acceso en línea:
- https://hdl.handle.net/10893/16799
- Palabra clave:
- Framework (Programa para computadores)
Procesamiento de textos
Twitter
Procesamiento del Lenguaje natural (computacion)
- Rights
- openAccess
- License
- http://purl.org/coar/access_right/c_abf2
Summary: | El preprocesamiento de información tiene como propósito fundamental la “manipulación y transformación de los datos en bruto de manera que permita exponer o al menos facilitar la exposición de la información contenida en el arreglo de datos. [1]” Existen diversas herramientas que ofrecen la posibilidad de ejecutar subtareas de la extracci´on de informaci´on y procesamiento de lenguaje natural con este propósito, sin embargo son escasas aquellas que brindan la posibilidad de ejecutar más de una de estas tareas, esto sin mencionar que del mismo modo son escasas aquellas que permiten el tratamiento de datos en idiomas diferentes al inglés. Tomando como fuente de datos a procesar a Internet, debe considerarse que es una fuente inagotable de información, basta y no muy bien ordenada; no obstante dicha información debe tener cierto grado de orden para poder ser tratada por las subtareas de extracci´on de informaci´on y generar resultados útiles a partir de los datos procesados, como por ejemplo en el área del marketing para mejorar ventas o productos, analizar tendencias, entre otros. En el presente documento se expone el proceso de desarrollo de una aplicación que integra diferentes herramientas de preprocesamiento de información adaptadas para el idioma espa˜nol que toma como datos de entrada texto recuperado de la red social Twitter. Inicialmente se implementa un módulo que permite recuperar los documentos usando palabras clave como criterio de búsqueda. Así mismo se detalla la implementaci´on de m´odulos de corrección de palabras mal escritas, eliminaci´on de palabras vac´ıas, anotación gramatical, reconocimiento de nombres de entidades y el proceso realizado en su integración. |
---|