Caracterización de usuarios en redes sociales a partir de procesamiento de lenguaje natural

En este documento se trata el desarrollo de un modelo capaz de identificar características de un usuario en redes sociales a partir de la información presente en sus perfiles públicos. Se propone que este desarrollo reciba información textual de los perfiles de redes sociales de un usuario (publicac...

Full description

Autores:
Toro Rey, Carlos Mario
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
2018
Institución:
Universidad de los Andes
Repositorio:
Séneca: repositorio Uniandes
Idioma:
spa
OAI Identifier:
oai:repositorio.uniandes.edu.co:1992/39045
Acceso en línea:
http://hdl.handle.net/1992/39045
Palabra clave:
Procesamiento de lenguaje natural (Computación)
Lingüística computacional
Python (Lenguaje de programación para computadores)
Redes sociales
Ingeniería
Rights
openAccess
License
https://repositorio.uniandes.edu.co/static/pdf/aceptacion_uso_es.pdf
Description
Summary:En este documento se trata el desarrollo de un modelo capaz de identificar características de un usuario en redes sociales a partir de la información presente en sus perfiles públicos. Se propone que este desarrollo reciba información textual de los perfiles de redes sociales de un usuario (publicaciones escritas) y sea capaz de procesar esta información para determinar características del individuo. Para lograr lo anterior, se implementaron varios modelos basados en distintas técnicas de procesamiento de lenguaje natural para la representación de texto, técnicas como Latent Dirichlet Analysis (LDA) y Word to Vec (W2V), así como otros derivados de estos dos. Con estos descriptores se entrenaron una serie de clasificadores para evaluar su desempeño, cada modelo simple de representación de texto se evaluó con un modelo lineal de clasificación (regresión logística), y una vez escogido el modelo que generara la mejor representación, se realizó una exhaustiva selección de modelo, donde se planteó la utilización de redes neuronales de diferentes tamaños, así como modelos de Adaboost con árboles de decisión como base, variando el número de estimadores y la profundidad de los árboles. Todo lo anterior se hizo para un conjunto de datos formado por tweets políticos escritos en inglés, por último se realizó una implementación para tweets en español para la que fue necesaria la extracción y el etiquetamiento de un conjunto de datos que corresponden a tweets políticos y de índole musical para evaluar el desempeño del modelo