Caracterización de usuarios en redes sociales a partir de procesamiento de lenguaje natural
En este documento se trata el desarrollo de un modelo capaz de identificar características de un usuario en redes sociales a partir de la información presente en sus perfiles públicos. Se propone que este desarrollo reciba información textual de los perfiles de redes sociales de un usuario (publicac...
- Autores:
-
Toro Rey, Carlos Mario
- Tipo de recurso:
- Trabajo de grado de pregrado
- Fecha de publicación:
- 2018
- Institución:
- Universidad de los Andes
- Repositorio:
- Séneca: repositorio Uniandes
- Idioma:
- spa
- OAI Identifier:
- oai:repositorio.uniandes.edu.co:1992/39045
- Acceso en línea:
- http://hdl.handle.net/1992/39045
- Palabra clave:
- Procesamiento de lenguaje natural (Computación)
Lingüística computacional
Python (Lenguaje de programación para computadores)
Redes sociales
Ingeniería
- Rights
- openAccess
- License
- https://repositorio.uniandes.edu.co/static/pdf/aceptacion_uso_es.pdf
id |
UNIANDES2_e48742a3a9a81e57f6053fedf7a1c229 |
---|---|
oai_identifier_str |
oai:repositorio.uniandes.edu.co:1992/39045 |
network_acronym_str |
UNIANDES2 |
network_name_str |
Séneca: repositorio Uniandes |
repository_id_str |
|
dc.title.es_CO.fl_str_mv |
Caracterización de usuarios en redes sociales a partir de procesamiento de lenguaje natural |
title |
Caracterización de usuarios en redes sociales a partir de procesamiento de lenguaje natural |
spellingShingle |
Caracterización de usuarios en redes sociales a partir de procesamiento de lenguaje natural Procesamiento de lenguaje natural (Computación) Lingüística computacional Python (Lenguaje de programación para computadores) Redes sociales Ingeniería |
title_short |
Caracterización de usuarios en redes sociales a partir de procesamiento de lenguaje natural |
title_full |
Caracterización de usuarios en redes sociales a partir de procesamiento de lenguaje natural |
title_fullStr |
Caracterización de usuarios en redes sociales a partir de procesamiento de lenguaje natural |
title_full_unstemmed |
Caracterización de usuarios en redes sociales a partir de procesamiento de lenguaje natural |
title_sort |
Caracterización de usuarios en redes sociales a partir de procesamiento de lenguaje natural |
dc.creator.fl_str_mv |
Toro Rey, Carlos Mario |
dc.contributor.advisor.none.fl_str_mv |
Quintero Peña, Carlos Andrés Lozano Martínez, Fernando Enrique |
dc.contributor.author.none.fl_str_mv |
Toro Rey, Carlos Mario |
dc.contributor.jury.none.fl_str_mv |
Giraldo Trujillo, Luis Felipe |
dc.subject.keyword.es_CO.fl_str_mv |
Procesamiento de lenguaje natural (Computación) Lingüística computacional Python (Lenguaje de programación para computadores) Redes sociales |
topic |
Procesamiento de lenguaje natural (Computación) Lingüística computacional Python (Lenguaje de programación para computadores) Redes sociales Ingeniería |
dc.subject.themes.none.fl_str_mv |
Ingeniería |
description |
En este documento se trata el desarrollo de un modelo capaz de identificar características de un usuario en redes sociales a partir de la información presente en sus perfiles públicos. Se propone que este desarrollo reciba información textual de los perfiles de redes sociales de un usuario (publicaciones escritas) y sea capaz de procesar esta información para determinar características del individuo. Para lograr lo anterior, se implementaron varios modelos basados en distintas técnicas de procesamiento de lenguaje natural para la representación de texto, técnicas como Latent Dirichlet Analysis (LDA) y Word to Vec (W2V), así como otros derivados de estos dos. Con estos descriptores se entrenaron una serie de clasificadores para evaluar su desempeño, cada modelo simple de representación de texto se evaluó con un modelo lineal de clasificación (regresión logística), y una vez escogido el modelo que generara la mejor representación, se realizó una exhaustiva selección de modelo, donde se planteó la utilización de redes neuronales de diferentes tamaños, así como modelos de Adaboost con árboles de decisión como base, variando el número de estimadores y la profundidad de los árboles. Todo lo anterior se hizo para un conjunto de datos formado por tweets políticos escritos en inglés, por último se realizó una implementación para tweets en español para la que fue necesaria la extracción y el etiquetamiento de un conjunto de datos que corresponden a tweets políticos y de índole musical para evaluar el desempeño del modelo |
publishDate |
2018 |
dc.date.issued.none.fl_str_mv |
2018 |
dc.date.accessioned.none.fl_str_mv |
2020-06-10T16:00:50Z |
dc.date.available.none.fl_str_mv |
2020-06-10T16:00:50Z |
dc.type.spa.fl_str_mv |
Trabajo de grado - Pregrado |
dc.type.coarversion.fl_str_mv |
http://purl.org/coar/version/c_970fb48d4fbd8a85 |
dc.type.driver.spa.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
dc.type.coar.spa.fl_str_mv |
http://purl.org/coar/resource_type/c_7a1f |
dc.type.content.spa.fl_str_mv |
Text |
dc.type.redcol.spa.fl_str_mv |
http://purl.org/redcol/resource_type/TP |
format |
http://purl.org/coar/resource_type/c_7a1f |
dc.identifier.uri.none.fl_str_mv |
http://hdl.handle.net/1992/39045 |
dc.identifier.pdf.none.fl_str_mv |
u820866.pdf |
dc.identifier.instname.spa.fl_str_mv |
instname:Universidad de los Andes |
dc.identifier.reponame.spa.fl_str_mv |
reponame:Repositorio Institucional Séneca |
dc.identifier.repourl.spa.fl_str_mv |
repourl:https://repositorio.uniandes.edu.co/ |
url |
http://hdl.handle.net/1992/39045 |
identifier_str_mv |
u820866.pdf instname:Universidad de los Andes reponame:Repositorio Institucional Séneca repourl:https://repositorio.uniandes.edu.co/ |
dc.language.iso.es_CO.fl_str_mv |
spa |
language |
spa |
dc.rights.uri.*.fl_str_mv |
https://repositorio.uniandes.edu.co/static/pdf/aceptacion_uso_es.pdf |
dc.rights.accessrights.spa.fl_str_mv |
info:eu-repo/semantics/openAccess |
dc.rights.coar.spa.fl_str_mv |
http://purl.org/coar/access_right/c_abf2 |
rights_invalid_str_mv |
https://repositorio.uniandes.edu.co/static/pdf/aceptacion_uso_es.pdf http://purl.org/coar/access_right/c_abf2 |
eu_rights_str_mv |
openAccess |
dc.format.extent.es_CO.fl_str_mv |
47 hojas |
dc.format.mimetype.es_CO.fl_str_mv |
application/pdf |
dc.publisher.es_CO.fl_str_mv |
Universidad de los Andes |
dc.publisher.program.es_CO.fl_str_mv |
Ingeniería Electrónica |
dc.publisher.faculty.es_CO.fl_str_mv |
Facultad de Ingeniería |
dc.publisher.department.es_CO.fl_str_mv |
Departamento de Ingeniería Eléctrica y Electrónica |
dc.source.es_CO.fl_str_mv |
instname:Universidad de los Andes reponame:Repositorio Institucional Séneca |
instname_str |
Universidad de los Andes |
institution |
Universidad de los Andes |
reponame_str |
Repositorio Institucional Séneca |
collection |
Repositorio Institucional Séneca |
bitstream.url.fl_str_mv |
https://repositorio.uniandes.edu.co/bitstreams/426426bb-fd06-4291-b138-d7618dd1f2b3/download https://repositorio.uniandes.edu.co/bitstreams/0225b085-cf5d-4c03-be9f-e424df1c8f38/download https://repositorio.uniandes.edu.co/bitstreams/d8b00f56-1225-4feb-bd0e-3314e050eaae/download |
bitstream.checksum.fl_str_mv |
c48216805b863d208acbe76fbbabdda4 76d35e6a8ed304640cabfab4a417cb70 7dd421c4b3c23a5fe4ee418fa421a881 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositorio institucional Séneca |
repository.mail.fl_str_mv |
adminrepositorio@uniandes.edu.co |
_version_ |
1812133978936705024 |
spelling |
Al consultar y hacer uso de este recurso, está aceptando las condiciones de uso establecidas por los autores.https://repositorio.uniandes.edu.co/static/pdf/aceptacion_uso_es.pdfinfo:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Quintero Peña, Carlos Andrésvirtual::11391-1Lozano Martínez, Fernando Enriquevirtual::11392-1Toro Rey, Carlos Mario8969e9f9-078a-44ed-b49d-8a0c5461f97b500Giraldo Trujillo, Luis Felipe2020-06-10T16:00:50Z2020-06-10T16:00:50Z2018http://hdl.handle.net/1992/39045u820866.pdfinstname:Universidad de los Andesreponame:Repositorio Institucional Sénecarepourl:https://repositorio.uniandes.edu.co/En este documento se trata el desarrollo de un modelo capaz de identificar características de un usuario en redes sociales a partir de la información presente en sus perfiles públicos. Se propone que este desarrollo reciba información textual de los perfiles de redes sociales de un usuario (publicaciones escritas) y sea capaz de procesar esta información para determinar características del individuo. Para lograr lo anterior, se implementaron varios modelos basados en distintas técnicas de procesamiento de lenguaje natural para la representación de texto, técnicas como Latent Dirichlet Analysis (LDA) y Word to Vec (W2V), así como otros derivados de estos dos. Con estos descriptores se entrenaron una serie de clasificadores para evaluar su desempeño, cada modelo simple de representación de texto se evaluó con un modelo lineal de clasificación (regresión logística), y una vez escogido el modelo que generara la mejor representación, se realizó una exhaustiva selección de modelo, donde se planteó la utilización de redes neuronales de diferentes tamaños, así como modelos de Adaboost con árboles de decisión como base, variando el número de estimadores y la profundidad de los árboles. Todo lo anterior se hizo para un conjunto de datos formado por tweets políticos escritos en inglés, por último se realizó una implementación para tweets en español para la que fue necesaria la extracción y el etiquetamiento de un conjunto de datos que corresponden a tweets políticos y de índole musical para evaluar el desempeño del modeloThis document deals with the development of a model capable of identifying the characteristics of a user in social networks based on the information present in their public profiles. It is proposed that this development receives textual information from a user's social network profiles (written publications) and be able to process this information to determine characteristics of the individual. To achieve the above, several models based on different natural language processing techniques were implemented for the representation of text, techniques such as Latent Dirichlet Analysis (LDA) and Word to Vec (W2V), as well as other derivatives of these two. With these descriptors a series of classifiers were trained to evaluate their performance, each simple model of text representation was evaluated with a linear classification model (logistic regression), and once the model that generated the best representation was chosen, an exhaustive model selection, where the use of neural networks of different sizes was proposed, as well as Adaboost models with decision trees as base classifiers, varying the number of estimators and the depth of the trees. All the above was done for a data set consisting of political tweets written in English, finally an implementation was made for tweets in Spanish for which it was necessary to extract and label a set of data corresponding to political tweets and of musical nature to evaluate the performance of the modelIngeniero ElectrónicoPregrado47 hojasapplication/pdfspaUniversidad de los AndesIngeniería ElectrónicaFacultad de IngenieríaDepartamento de Ingeniería Eléctrica y Electrónicainstname:Universidad de los Andesreponame:Repositorio Institucional SénecaCaracterización de usuarios en redes sociales a partir de procesamiento de lenguaje naturalTrabajo de grado - Pregradoinfo:eu-repo/semantics/bachelorThesishttp://purl.org/coar/resource_type/c_7a1fhttp://purl.org/coar/version/c_970fb48d4fbd8a85Texthttp://purl.org/redcol/resource_type/TPProcesamiento de lenguaje natural (Computación)Lingüística computacionalPython (Lenguaje de programación para computadores)Redes socialesIngenieríaPublication72eb9359-fc6f-4948-928a-5ada3c0ac3a9virtual::11391-1edd81d8c-e0b9-4c1f-bf04-eed0e12e755dvirtual::11392-172eb9359-fc6f-4948-928a-5ada3c0ac3a9virtual::11391-1edd81d8c-e0b9-4c1f-bf04-eed0e12e755dvirtual::11392-1https://scienti.minciencias.gov.co/cvlac/visualizador/generarCurriculoCv.do?cod_rh=0000025550virtual::11392-1ORIGINALu820866.pdfapplication/pdf852020https://repositorio.uniandes.edu.co/bitstreams/426426bb-fd06-4291-b138-d7618dd1f2b3/downloadc48216805b863d208acbe76fbbabdda4MD51THUMBNAILu820866.pdf.jpgu820866.pdf.jpgIM Thumbnailimage/jpeg8030https://repositorio.uniandes.edu.co/bitstreams/0225b085-cf5d-4c03-be9f-e424df1c8f38/download76d35e6a8ed304640cabfab4a417cb70MD55TEXTu820866.pdf.txtu820866.pdf.txtExtracted texttext/plain72234https://repositorio.uniandes.edu.co/bitstreams/d8b00f56-1225-4feb-bd0e-3314e050eaae/download7dd421c4b3c23a5fe4ee418fa421a881MD541992/39045oai:repositorio.uniandes.edu.co:1992/390452024-03-13 14:25:23.409https://repositorio.uniandes.edu.co/static/pdf/aceptacion_uso_es.pdfopen.accesshttps://repositorio.uniandes.edu.coRepositorio institucional Sénecaadminrepositorio@uniandes.edu.co |