Identificación de lenguaje ofensivo en mensajes de texto, utilizando técnicas de aprendizaje automático

Este proyecto de investigación se centró en el estudio y desarrollo de modelos de aprendizaje automático supervisado, incluyendo variantes de Naive Bayes, máquinas de soporte vectorial y redes neuronales convolucionales, con el propósito de identificar y clasificar tweets como ofensivos o no ofensiv...

Full description

Autores:
Ocampo Morales, Kevin Steven
Arango Salazar, Juan Sebastian
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
2023
Institución:
Pontificia Universidad Javeriana Cali
Repositorio:
Vitela
Idioma:
spa
OAI Identifier:
oai:vitela.javerianacali.edu.co:11522/2855
Acceso en línea:
https://vitela.javerianacali.edu.co/handle/11522/2855
Palabra clave:
Redes sociales
Libertad de expresión
Lenguaje ofensivo
Análisis de sentimientos
Aprendizaje automático
Clasificación
Rights
License
https://creativecommons.org/licenses/by-nc-nd/4.0/
id Vitela2_5c69c8c1bbef0ffe84f27ad992851589
oai_identifier_str oai:vitela.javerianacali.edu.co:11522/2855
network_acronym_str Vitela2
network_name_str Vitela
repository_id_str
dc.title.spa.fl_str_mv Identificación de lenguaje ofensivo en mensajes de texto, utilizando técnicas de aprendizaje automático
title Identificación de lenguaje ofensivo en mensajes de texto, utilizando técnicas de aprendizaje automático
spellingShingle Identificación de lenguaje ofensivo en mensajes de texto, utilizando técnicas de aprendizaje automático
Redes sociales
Libertad de expresión
Lenguaje ofensivo
Análisis de sentimientos
Aprendizaje automático
Clasificación
title_short Identificación de lenguaje ofensivo en mensajes de texto, utilizando técnicas de aprendizaje automático
title_full Identificación de lenguaje ofensivo en mensajes de texto, utilizando técnicas de aprendizaje automático
title_fullStr Identificación de lenguaje ofensivo en mensajes de texto, utilizando técnicas de aprendizaje automático
title_full_unstemmed Identificación de lenguaje ofensivo en mensajes de texto, utilizando técnicas de aprendizaje automático
title_sort Identificación de lenguaje ofensivo en mensajes de texto, utilizando técnicas de aprendizaje automático
dc.creator.fl_str_mv Ocampo Morales, Kevin Steven
Arango Salazar, Juan Sebastian
dc.contributor.advisor.none.fl_str_mv Pabón Burbano, María Constanza
dc.contributor.author.none.fl_str_mv Ocampo Morales, Kevin Steven
Arango Salazar, Juan Sebastian
dc.subject.none.fl_str_mv Redes sociales
Libertad de expresión
Lenguaje ofensivo
Análisis de sentimientos
Aprendizaje automático
Clasificación
topic Redes sociales
Libertad de expresión
Lenguaje ofensivo
Análisis de sentimientos
Aprendizaje automático
Clasificación
description Este proyecto de investigación se centró en el estudio y desarrollo de modelos de aprendizaje automático supervisado, incluyendo variantes de Naive Bayes, máquinas de soporte vectorial y redes neuronales convolucionales, con el propósito de identificar y clasificar tweets como ofensivos o no ofensivos. A lo largo de esta investigación, se siguieron varios pasos fundamentales que desempeñaron un papel importante en la creación de los modelos finales. Los diversos procesos experimentales desarrollados a lo largo de la investigación arrojaron resultados de relevancia. Inicialmente, se implementaron modelos base predeterminados disponibles en las librerías. A medida que avanzábamos e iteramos, además de la constante incorporación de métodos y técnicas más avanzadas que permitían enriquecer y perfeccionar los modelos. Al concluir la investigación tanto los modelos de Naive Bayes, junto con el modelo de máquinas de soporte vectorial, arrojaron resultados excelentes durante las fases de entrenamiento, pero al momento de comprobar con la fase de prueba los resultados fueron deficientes. A pesar de implementar diversas estrategias, métodos y técnicas para mejorar su eficacia en el proceso de la clasificación de tweets, no se logró un desempeño satisfactorio debido a problemas de sobreajuste. Además, el modelo de redes neuronales, junto con las técnicas implementadas para optimizar su rendimiento, demostró ser efectivo al proporcionar resultados satisfactorios. En resumen, este estudio facilitó la exploración de diversos métodos y técnicas en el desarrollo de modelos de clasificación, destacando la relevancia de la iteración continua para el constante perfeccionamiento de la investigación.
publishDate 2023
dc.date.issued.none.fl_str_mv 2023
dc.date.accessioned.none.fl_str_mv 2024-06-18T00:52:31Z
dc.date.available.none.fl_str_mv 2024-06-18T00:52:31Z
dc.type.coar.none.fl_str_mv http://purl.org/coar/resource_type/c_7a1f
dc.type.local.none.fl_str_mv Tesis/Trabajo de grado - Monografía - Pregrado
dc.type.redcol.none.fl_str_mv https://purl.org/redcol/resource_type/TP
format http://purl.org/coar/resource_type/c_7a1f
dc.identifier.uri.none.fl_str_mv https://vitela.javerianacali.edu.co/handle/11522/2855
url https://vitela.javerianacali.edu.co/handle/11522/2855
dc.language.iso.none.fl_str_mv spa
language spa
dc.rights.uri.none.fl_str_mv https://creativecommons.org/licenses/by-nc-nd/4.0/
dc.rights.creativecommons.none.fl_str_mv https://creativecommons.org/licenses/by-nc-nd/4.0/
dc.rights.accessrights.none.fl_str_mv http://purl.org/coar/access_right/c_abf2
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-nd/4.0/
http://purl.org/coar/access_right/c_abf2
dc.format.extent.none.fl_str_mv 59 p.
dc.format.mimetype.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Pontificia Univerisdad Javeriana Cali
publisher.none.fl_str_mv Pontificia Univerisdad Javeriana Cali
institution Pontificia Universidad Javeriana Cali
bitstream.url.fl_str_mv https://vitela.javerianacali.edu.co/bitstreams/02db728b-1217-44d3-bf25-66dbbf620d49/download
https://vitela.javerianacali.edu.co/bitstreams/44ae2a19-da65-456c-97f7-776cbaaac78a/download
https://vitela.javerianacali.edu.co/bitstreams/f16c96c9-6e29-45cf-8d4a-44ef546c0187/download
https://vitela.javerianacali.edu.co/bitstreams/1692413c-0bd1-4aef-8ad6-0c677aa52c4d/download
https://vitela.javerianacali.edu.co/bitstreams/3698fbdb-24ab-48d7-bc8d-fd142141909c/download
https://vitela.javerianacali.edu.co/bitstreams/91f07911-153c-45fb-9b6d-49bcda3275a7/download
https://vitela.javerianacali.edu.co/bitstreams/ef1b9dc0-7140-47e9-8e1f-a538969ba16f/download
https://vitela.javerianacali.edu.co/bitstreams/b1494d19-d43b-4920-aa92-00b44b399dae/download
https://vitela.javerianacali.edu.co/bitstreams/37d01b1a-9e7f-474b-836f-26067a566eb5/download
https://vitela.javerianacali.edu.co/bitstreams/8f779cd2-1cde-4c46-93ae-8ac58d536acd/download
bitstream.checksum.fl_str_mv 5066eeba3bb36717276f72e9b8305a07
50f8d18a0f06542eff785e19992479b2
a8c2db17549ba184c69662606d792719
8a4605be74aa9ea9d79846c1fba20a33
134743a40f197f3fbc7a98677341e0ca
1a90c585c6c3029d160f8c543abe8889
7d6f5146b96d5aa26226db048bd76b4c
2b6c3e239a49510e6ff0aba85c457fc2
c80efd0459e0d2f2e8eb6c6f3bf0e90f
cd55239c0085652ed784d39b8b69c867
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio Vitela
repository.mail.fl_str_mv vitela.mail@javerianacali.edu.co
_version_ 1812095061619376128
spelling Pabón Burbano, María ConstanzaOcampo Morales, Kevin StevenArango Salazar, Juan Sebastian2024-06-18T00:52:31Z2024-06-18T00:52:31Z2023https://vitela.javerianacali.edu.co/handle/11522/2855Este proyecto de investigación se centró en el estudio y desarrollo de modelos de aprendizaje automático supervisado, incluyendo variantes de Naive Bayes, máquinas de soporte vectorial y redes neuronales convolucionales, con el propósito de identificar y clasificar tweets como ofensivos o no ofensivos. A lo largo de esta investigación, se siguieron varios pasos fundamentales que desempeñaron un papel importante en la creación de los modelos finales. Los diversos procesos experimentales desarrollados a lo largo de la investigación arrojaron resultados de relevancia. Inicialmente, se implementaron modelos base predeterminados disponibles en las librerías. A medida que avanzábamos e iteramos, además de la constante incorporación de métodos y técnicas más avanzadas que permitían enriquecer y perfeccionar los modelos. Al concluir la investigación tanto los modelos de Naive Bayes, junto con el modelo de máquinas de soporte vectorial, arrojaron resultados excelentes durante las fases de entrenamiento, pero al momento de comprobar con la fase de prueba los resultados fueron deficientes. A pesar de implementar diversas estrategias, métodos y técnicas para mejorar su eficacia en el proceso de la clasificación de tweets, no se logró un desempeño satisfactorio debido a problemas de sobreajuste. Además, el modelo de redes neuronales, junto con las técnicas implementadas para optimizar su rendimiento, demostró ser efectivo al proporcionar resultados satisfactorios. En resumen, este estudio facilitó la exploración de diversos métodos y técnicas en el desarrollo de modelos de clasificación, destacando la relevancia de la iteración continua para el constante perfeccionamiento de la investigación.Social networks are digital applications or platforms that allow the exchange of information between individuals, the creation of communities, sites of expression, among others. Thanks to them, people have a means to share their ideas or opinions on a particular topic, thus exercising their universal right to free expression. These include websites such as Twitter, where users can express themselves through text, audiovisual content, images or emojis. Due to the freedom they offer, the anonymity and the increasingly marked polarization in society, they give rise to the use of offensive language and toxic or negative content that some subjects generate towards others with the inten tion of offending, hurting or discriminating. This is why sentiment analysis, in conjunction with machine learning, is presented as an area of study and a very useful tool to detect and counteract this problem. Techniques are used to determine the type of intention that has the content shared by people in this social network, distinguishing between positive or negative. In particular, our project seeks, through the use of this previously mentioned system, to develop models that allow classifying text messages coming from Twitter (tweets) into offensive and non-offensive, using sentiment analysis.59 p.application/pdfspaPontificia Univerisdad Javeriana Calihttps://creativecommons.org/licenses/by-nc-nd/4.0/https://creativecommons.org/licenses/by-nc-nd/4.0/http://purl.org/coar/access_right/c_abf2Redes socialesLibertad de expresiónLenguaje ofensivoAnálisis de sentimientosAprendizaje automáticoClasificaciónIdentificación de lenguaje ofensivo en mensajes de texto, utilizando técnicas de aprendizaje automáticohttp://purl.org/coar/resource_type/c_7a1fTesis/Trabajo de grado - Monografía - Pregradohttps://purl.org/redcol/resource_type/TPFacultad de Ingeniería y Ciencias. Ingeniería de Sistemas y ComputaciónPontificia Universidad Javeriana CaliPregradoIngeniero(a)de Sistemas y ComputaciónORIGINALIdentificación_lenguaje_ofensivo.pdf.pdfIdentificación_lenguaje_ofensivo.pdf.pdfapplication/pdf1534534https://vitela.javerianacali.edu.co/bitstreams/02db728b-1217-44d3-bf25-66dbbf620d49/download5066eeba3bb36717276f72e9b8305a07MD52Articulo_cientifico.pdfArticulo_cientifico.pdfapplication/pdf148064https://vitela.javerianacali.edu.co/bitstreams/44ae2a19-da65-456c-97f7-776cbaaac78a/download50f8d18a0f06542eff785e19992479b2MD53Licencia_autorizacion.pdfLicencia_autorizacion.pdfapplication/pdf757167https://vitela.javerianacali.edu.co/bitstreams/f16c96c9-6e29-45cf-8d4a-44ef546c0187/downloada8c2db17549ba184c69662606d792719MD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://vitela.javerianacali.edu.co/bitstreams/1692413c-0bd1-4aef-8ad6-0c677aa52c4d/download8a4605be74aa9ea9d79846c1fba20a33MD54TEXTIdentificación_lenguaje_ofensivo.pdf.pdf.txtIdentificación_lenguaje_ofensivo.pdf.pdf.txtExtracted texttext/plain102183https://vitela.javerianacali.edu.co/bitstreams/3698fbdb-24ab-48d7-bc8d-fd142141909c/download134743a40f197f3fbc7a98677341e0caMD55Articulo_cientifico.pdf.txtArticulo_cientifico.pdf.txtExtracted texttext/plain15114https://vitela.javerianacali.edu.co/bitstreams/91f07911-153c-45fb-9b6d-49bcda3275a7/download1a90c585c6c3029d160f8c543abe8889MD57Licencia_autorizacion.pdf.txtLicencia_autorizacion.pdf.txtExtracted texttext/plain5106https://vitela.javerianacali.edu.co/bitstreams/ef1b9dc0-7140-47e9-8e1f-a538969ba16f/download7d6f5146b96d5aa26226db048bd76b4cMD58THUMBNAILIdentificación_lenguaje_ofensivo.pdf.pdf.jpgIdentificación_lenguaje_ofensivo.pdf.pdf.jpgGenerated Thumbnailimage/jpeg3949https://vitela.javerianacali.edu.co/bitstreams/b1494d19-d43b-4920-aa92-00b44b399dae/download2b6c3e239a49510e6ff0aba85c457fc2MD56Licencia_autorizacion.pdf.jpgLicencia_autorizacion.pdf.jpgGenerated Thumbnailimage/jpeg5332https://vitela.javerianacali.edu.co/bitstreams/37d01b1a-9e7f-474b-836f-26067a566eb5/downloadc80efd0459e0d2f2e8eb6c6f3bf0e90fMD59Articulo_cientifico.pdf.jpgArticulo_cientifico.pdf.jpgGenerated Thumbnailimage/jpeg5319https://vitela.javerianacali.edu.co/bitstreams/8f779cd2-1cde-4c46-93ae-8ac58d536acd/downloadcd55239c0085652ed784d39b8b69c867MD51011522/2855oai:vitela.javerianacali.edu.co:11522/28552024-06-25 05:15:39.579https://creativecommons.org/licenses/by-nc-nd/4.0/open.accesshttps://vitela.javerianacali.edu.coRepositorio Vitelavitela.mail@javerianacali.edu.coTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=