Caracterización de usuarios en redes sociales a partir de procesamiento de lenguaje natural

En este documento se trata el desarrollo de un modelo capaz de identificar características de un usuario en redes sociales a partir de la información presente en sus perfiles públicos. Se propone que este desarrollo reciba información textual de los perfiles de redes sociales de un usuario (publicac...

Full description

Autores:
Toro Rey, Carlos Mario
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
2018
Institución:
Universidad de los Andes
Repositorio:
Séneca: repositorio Uniandes
Idioma:
spa
OAI Identifier:
oai:repositorio.uniandes.edu.co:1992/39045
Acceso en línea:
http://hdl.handle.net/1992/39045
Palabra clave:
Procesamiento de lenguaje natural (Computación)
Lingüística computacional
Python (Lenguaje de programación para computadores)
Redes sociales
Ingeniería
Rights
openAccess
License
https://repositorio.uniandes.edu.co/static/pdf/aceptacion_uso_es.pdf
id UNIANDES2_e48742a3a9a81e57f6053fedf7a1c229
oai_identifier_str oai:repositorio.uniandes.edu.co:1992/39045
network_acronym_str UNIANDES2
network_name_str Séneca: repositorio Uniandes
repository_id_str
dc.title.es_CO.fl_str_mv Caracterización de usuarios en redes sociales a partir de procesamiento de lenguaje natural
title Caracterización de usuarios en redes sociales a partir de procesamiento de lenguaje natural
spellingShingle Caracterización de usuarios en redes sociales a partir de procesamiento de lenguaje natural
Procesamiento de lenguaje natural (Computación)
Lingüística computacional
Python (Lenguaje de programación para computadores)
Redes sociales
Ingeniería
title_short Caracterización de usuarios en redes sociales a partir de procesamiento de lenguaje natural
title_full Caracterización de usuarios en redes sociales a partir de procesamiento de lenguaje natural
title_fullStr Caracterización de usuarios en redes sociales a partir de procesamiento de lenguaje natural
title_full_unstemmed Caracterización de usuarios en redes sociales a partir de procesamiento de lenguaje natural
title_sort Caracterización de usuarios en redes sociales a partir de procesamiento de lenguaje natural
dc.creator.fl_str_mv Toro Rey, Carlos Mario
dc.contributor.advisor.none.fl_str_mv Quintero Peña, Carlos Andrés
Lozano Martínez, Fernando Enrique
dc.contributor.author.none.fl_str_mv Toro Rey, Carlos Mario
dc.contributor.jury.none.fl_str_mv Giraldo Trujillo, Luis Felipe
dc.subject.keyword.es_CO.fl_str_mv Procesamiento de lenguaje natural (Computación)
Lingüística computacional
Python (Lenguaje de programación para computadores)
Redes sociales
topic Procesamiento de lenguaje natural (Computación)
Lingüística computacional
Python (Lenguaje de programación para computadores)
Redes sociales
Ingeniería
dc.subject.themes.none.fl_str_mv Ingeniería
description En este documento se trata el desarrollo de un modelo capaz de identificar características de un usuario en redes sociales a partir de la información presente en sus perfiles públicos. Se propone que este desarrollo reciba información textual de los perfiles de redes sociales de un usuario (publicaciones escritas) y sea capaz de procesar esta información para determinar características del individuo. Para lograr lo anterior, se implementaron varios modelos basados en distintas técnicas de procesamiento de lenguaje natural para la representación de texto, técnicas como Latent Dirichlet Analysis (LDA) y Word to Vec (W2V), así como otros derivados de estos dos. Con estos descriptores se entrenaron una serie de clasificadores para evaluar su desempeño, cada modelo simple de representación de texto se evaluó con un modelo lineal de clasificación (regresión logística), y una vez escogido el modelo que generara la mejor representación, se realizó una exhaustiva selección de modelo, donde se planteó la utilización de redes neuronales de diferentes tamaños, así como modelos de Adaboost con árboles de decisión como base, variando el número de estimadores y la profundidad de los árboles. Todo lo anterior se hizo para un conjunto de datos formado por tweets políticos escritos en inglés, por último se realizó una implementación para tweets en español para la que fue necesaria la extracción y el etiquetamiento de un conjunto de datos que corresponden a tweets políticos y de índole musical para evaluar el desempeño del modelo
publishDate 2018
dc.date.issued.none.fl_str_mv 2018
dc.date.accessioned.none.fl_str_mv 2020-06-10T16:00:50Z
dc.date.available.none.fl_str_mv 2020-06-10T16:00:50Z
dc.type.spa.fl_str_mv Trabajo de grado - Pregrado
dc.type.coarversion.fl_str_mv http://purl.org/coar/version/c_970fb48d4fbd8a85
dc.type.driver.spa.fl_str_mv info:eu-repo/semantics/bachelorThesis
dc.type.coar.spa.fl_str_mv http://purl.org/coar/resource_type/c_7a1f
dc.type.content.spa.fl_str_mv Text
dc.type.redcol.spa.fl_str_mv http://purl.org/redcol/resource_type/TP
format http://purl.org/coar/resource_type/c_7a1f
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/1992/39045
dc.identifier.pdf.none.fl_str_mv u820866.pdf
dc.identifier.instname.spa.fl_str_mv instname:Universidad de los Andes
dc.identifier.reponame.spa.fl_str_mv reponame:Repositorio Institucional Séneca
dc.identifier.repourl.spa.fl_str_mv repourl:https://repositorio.uniandes.edu.co/
url http://hdl.handle.net/1992/39045
identifier_str_mv u820866.pdf
instname:Universidad de los Andes
reponame:Repositorio Institucional Séneca
repourl:https://repositorio.uniandes.edu.co/
dc.language.iso.es_CO.fl_str_mv spa
language spa
dc.rights.uri.*.fl_str_mv https://repositorio.uniandes.edu.co/static/pdf/aceptacion_uso_es.pdf
dc.rights.accessrights.spa.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.coar.spa.fl_str_mv http://purl.org/coar/access_right/c_abf2
rights_invalid_str_mv https://repositorio.uniandes.edu.co/static/pdf/aceptacion_uso_es.pdf
http://purl.org/coar/access_right/c_abf2
eu_rights_str_mv openAccess
dc.format.extent.es_CO.fl_str_mv 47 hojas
dc.format.mimetype.es_CO.fl_str_mv application/pdf
dc.publisher.es_CO.fl_str_mv Universidad de los Andes
dc.publisher.program.es_CO.fl_str_mv Ingeniería Electrónica
dc.publisher.faculty.es_CO.fl_str_mv Facultad de Ingeniería
dc.publisher.department.es_CO.fl_str_mv Departamento de Ingeniería Eléctrica y Electrónica
dc.source.es_CO.fl_str_mv instname:Universidad de los Andes
reponame:Repositorio Institucional Séneca
instname_str Universidad de los Andes
institution Universidad de los Andes
reponame_str Repositorio Institucional Séneca
collection Repositorio Institucional Séneca
bitstream.url.fl_str_mv https://repositorio.uniandes.edu.co/bitstreams/426426bb-fd06-4291-b138-d7618dd1f2b3/download
https://repositorio.uniandes.edu.co/bitstreams/0225b085-cf5d-4c03-be9f-e424df1c8f38/download
https://repositorio.uniandes.edu.co/bitstreams/d8b00f56-1225-4feb-bd0e-3314e050eaae/download
bitstream.checksum.fl_str_mv c48216805b863d208acbe76fbbabdda4
76d35e6a8ed304640cabfab4a417cb70
7dd421c4b3c23a5fe4ee418fa421a881
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositorio institucional Séneca
repository.mail.fl_str_mv adminrepositorio@uniandes.edu.co
_version_ 1808390380405653504
spelling Al consultar y hacer uso de este recurso, está aceptando las condiciones de uso establecidas por los autores.https://repositorio.uniandes.edu.co/static/pdf/aceptacion_uso_es.pdfinfo:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Quintero Peña, Carlos Andrésvirtual::11391-1Lozano Martínez, Fernando Enriquevirtual::11392-1Toro Rey, Carlos Mario8969e9f9-078a-44ed-b49d-8a0c5461f97b500Giraldo Trujillo, Luis Felipe2020-06-10T16:00:50Z2020-06-10T16:00:50Z2018http://hdl.handle.net/1992/39045u820866.pdfinstname:Universidad de los Andesreponame:Repositorio Institucional Sénecarepourl:https://repositorio.uniandes.edu.co/En este documento se trata el desarrollo de un modelo capaz de identificar características de un usuario en redes sociales a partir de la información presente en sus perfiles públicos. Se propone que este desarrollo reciba información textual de los perfiles de redes sociales de un usuario (publicaciones escritas) y sea capaz de procesar esta información para determinar características del individuo. Para lograr lo anterior, se implementaron varios modelos basados en distintas técnicas de procesamiento de lenguaje natural para la representación de texto, técnicas como Latent Dirichlet Analysis (LDA) y Word to Vec (W2V), así como otros derivados de estos dos. Con estos descriptores se entrenaron una serie de clasificadores para evaluar su desempeño, cada modelo simple de representación de texto se evaluó con un modelo lineal de clasificación (regresión logística), y una vez escogido el modelo que generara la mejor representación, se realizó una exhaustiva selección de modelo, donde se planteó la utilización de redes neuronales de diferentes tamaños, así como modelos de Adaboost con árboles de decisión como base, variando el número de estimadores y la profundidad de los árboles. Todo lo anterior se hizo para un conjunto de datos formado por tweets políticos escritos en inglés, por último se realizó una implementación para tweets en español para la que fue necesaria la extracción y el etiquetamiento de un conjunto de datos que corresponden a tweets políticos y de índole musical para evaluar el desempeño del modeloThis document deals with the development of a model capable of identifying the characteristics of a user in social networks based on the information present in their public profiles. It is proposed that this development receives textual information from a user's social network profiles (written publications) and be able to process this information to determine characteristics of the individual. To achieve the above, several models based on different natural language processing techniques were implemented for the representation of text, techniques such as Latent Dirichlet Analysis (LDA) and Word to Vec (W2V), as well as other derivatives of these two. With these descriptors a series of classifiers were trained to evaluate their performance, each simple model of text representation was evaluated with a linear classification model (logistic regression), and once the model that generated the best representation was chosen, an exhaustive model selection, where the use of neural networks of different sizes was proposed, as well as Adaboost models with decision trees as base classifiers, varying the number of estimators and the depth of the trees. All the above was done for a data set consisting of political tweets written in English, finally an implementation was made for tweets in Spanish for which it was necessary to extract and label a set of data corresponding to political tweets and of musical nature to evaluate the performance of the modelIngeniero ElectrónicoPregrado47 hojasapplication/pdfspaUniversidad de los AndesIngeniería ElectrónicaFacultad de IngenieríaDepartamento de Ingeniería Eléctrica y Electrónicainstname:Universidad de los Andesreponame:Repositorio Institucional SénecaCaracterización de usuarios en redes sociales a partir de procesamiento de lenguaje naturalTrabajo de grado - Pregradoinfo:eu-repo/semantics/bachelorThesishttp://purl.org/coar/resource_type/c_7a1fhttp://purl.org/coar/version/c_970fb48d4fbd8a85Texthttp://purl.org/redcol/resource_type/TPProcesamiento de lenguaje natural (Computación)Lingüística computacionalPython (Lenguaje de programación para computadores)Redes socialesIngenieríaPublication72eb9359-fc6f-4948-928a-5ada3c0ac3a9virtual::11391-1edd81d8c-e0b9-4c1f-bf04-eed0e12e755dvirtual::11392-172eb9359-fc6f-4948-928a-5ada3c0ac3a9virtual::11391-1edd81d8c-e0b9-4c1f-bf04-eed0e12e755dvirtual::11392-1https://scienti.minciencias.gov.co/cvlac/visualizador/generarCurriculoCv.do?cod_rh=0000025550virtual::11392-1ORIGINALu820866.pdfapplication/pdf852020https://repositorio.uniandes.edu.co/bitstreams/426426bb-fd06-4291-b138-d7618dd1f2b3/downloadc48216805b863d208acbe76fbbabdda4MD51THUMBNAILu820866.pdf.jpgu820866.pdf.jpgIM Thumbnailimage/jpeg8030https://repositorio.uniandes.edu.co/bitstreams/0225b085-cf5d-4c03-be9f-e424df1c8f38/download76d35e6a8ed304640cabfab4a417cb70MD55TEXTu820866.pdf.txtu820866.pdf.txtExtracted texttext/plain72234https://repositorio.uniandes.edu.co/bitstreams/d8b00f56-1225-4feb-bd0e-3314e050eaae/download7dd421c4b3c23a5fe4ee418fa421a881MD541992/39045oai:repositorio.uniandes.edu.co:1992/390452024-03-13 14:25:23.409https://repositorio.uniandes.edu.co/static/pdf/aceptacion_uso_es.pdfopen.accesshttps://repositorio.uniandes.edu.coRepositorio institucional Sénecaadminrepositorio@uniandes.edu.co