Identificación de lenguaje ofensivo en mensajes de texto, utilizando técnicas de aprendizaje automático
Este proyecto de investigación se centró en el estudio y desarrollo de modelos de aprendizaje automático supervisado, incluyendo variantes de Naive Bayes, máquinas de soporte vectorial y redes neuronales convolucionales, con el propósito de identificar y clasificar tweets como ofensivos o no ofensiv...
- Autores:
-
Ocampo Morales, Kevin Steven
Arango Salazar, Juan Sebastian
- Tipo de recurso:
- Trabajo de grado de pregrado
- Fecha de publicación:
- 2023
- Institución:
- Pontificia Universidad Javeriana Cali
- Repositorio:
- Vitela
- Idioma:
- spa
- OAI Identifier:
- oai:vitela.javerianacali.edu.co:11522/2855
- Acceso en línea:
- https://vitela.javerianacali.edu.co/handle/11522/2855
- Palabra clave:
- Redes sociales
Libertad de expresión
Lenguaje ofensivo
Análisis de sentimientos
Aprendizaje automático
Clasificación
- Rights
- License
- https://creativecommons.org/licenses/by-nc-nd/4.0/
id |
Vitela2_5c69c8c1bbef0ffe84f27ad992851589 |
---|---|
oai_identifier_str |
oai:vitela.javerianacali.edu.co:11522/2855 |
network_acronym_str |
Vitela2 |
network_name_str |
Vitela |
repository_id_str |
|
dc.title.spa.fl_str_mv |
Identificación de lenguaje ofensivo en mensajes de texto, utilizando técnicas de aprendizaje automático |
title |
Identificación de lenguaje ofensivo en mensajes de texto, utilizando técnicas de aprendizaje automático |
spellingShingle |
Identificación de lenguaje ofensivo en mensajes de texto, utilizando técnicas de aprendizaje automático Redes sociales Libertad de expresión Lenguaje ofensivo Análisis de sentimientos Aprendizaje automático Clasificación |
title_short |
Identificación de lenguaje ofensivo en mensajes de texto, utilizando técnicas de aprendizaje automático |
title_full |
Identificación de lenguaje ofensivo en mensajes de texto, utilizando técnicas de aprendizaje automático |
title_fullStr |
Identificación de lenguaje ofensivo en mensajes de texto, utilizando técnicas de aprendizaje automático |
title_full_unstemmed |
Identificación de lenguaje ofensivo en mensajes de texto, utilizando técnicas de aprendizaje automático |
title_sort |
Identificación de lenguaje ofensivo en mensajes de texto, utilizando técnicas de aprendizaje automático |
dc.creator.fl_str_mv |
Ocampo Morales, Kevin Steven Arango Salazar, Juan Sebastian |
dc.contributor.advisor.none.fl_str_mv |
Pabón Burbano, María Constanza |
dc.contributor.author.none.fl_str_mv |
Ocampo Morales, Kevin Steven Arango Salazar, Juan Sebastian |
dc.subject.none.fl_str_mv |
Redes sociales Libertad de expresión Lenguaje ofensivo Análisis de sentimientos Aprendizaje automático Clasificación |
topic |
Redes sociales Libertad de expresión Lenguaje ofensivo Análisis de sentimientos Aprendizaje automático Clasificación |
description |
Este proyecto de investigación se centró en el estudio y desarrollo de modelos de aprendizaje automático supervisado, incluyendo variantes de Naive Bayes, máquinas de soporte vectorial y redes neuronales convolucionales, con el propósito de identificar y clasificar tweets como ofensivos o no ofensivos. A lo largo de esta investigación, se siguieron varios pasos fundamentales que desempeñaron un papel importante en la creación de los modelos finales. Los diversos procesos experimentales desarrollados a lo largo de la investigación arrojaron resultados de relevancia. Inicialmente, se implementaron modelos base predeterminados disponibles en las librerías. A medida que avanzábamos e iteramos, además de la constante incorporación de métodos y técnicas más avanzadas que permitían enriquecer y perfeccionar los modelos. Al concluir la investigación tanto los modelos de Naive Bayes, junto con el modelo de máquinas de soporte vectorial, arrojaron resultados excelentes durante las fases de entrenamiento, pero al momento de comprobar con la fase de prueba los resultados fueron deficientes. A pesar de implementar diversas estrategias, métodos y técnicas para mejorar su eficacia en el proceso de la clasificación de tweets, no se logró un desempeño satisfactorio debido a problemas de sobreajuste. Además, el modelo de redes neuronales, junto con las técnicas implementadas para optimizar su rendimiento, demostró ser efectivo al proporcionar resultados satisfactorios. En resumen, este estudio facilitó la exploración de diversos métodos y técnicas en el desarrollo de modelos de clasificación, destacando la relevancia de la iteración continua para el constante perfeccionamiento de la investigación. |
publishDate |
2023 |
dc.date.issued.none.fl_str_mv |
2023 |
dc.date.accessioned.none.fl_str_mv |
2024-06-18T00:52:31Z |
dc.date.available.none.fl_str_mv |
2024-06-18T00:52:31Z |
dc.type.coar.none.fl_str_mv |
http://purl.org/coar/resource_type/c_7a1f |
dc.type.local.none.fl_str_mv |
Tesis/Trabajo de grado - Monografía - Pregrado |
dc.type.redcol.none.fl_str_mv |
https://purl.org/redcol/resource_type/TP |
format |
http://purl.org/coar/resource_type/c_7a1f |
dc.identifier.uri.none.fl_str_mv |
https://vitela.javerianacali.edu.co/handle/11522/2855 |
url |
https://vitela.javerianacali.edu.co/handle/11522/2855 |
dc.language.iso.none.fl_str_mv |
spa |
language |
spa |
dc.rights.uri.none.fl_str_mv |
https://creativecommons.org/licenses/by-nc-nd/4.0/ |
dc.rights.creativecommons.none.fl_str_mv |
https://creativecommons.org/licenses/by-nc-nd/4.0/ |
dc.rights.accessrights.none.fl_str_mv |
http://purl.org/coar/access_right/c_abf2 |
rights_invalid_str_mv |
https://creativecommons.org/licenses/by-nc-nd/4.0/ http://purl.org/coar/access_right/c_abf2 |
dc.format.extent.none.fl_str_mv |
59 p. |
dc.format.mimetype.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Pontificia Univerisdad Javeriana Cali |
publisher.none.fl_str_mv |
Pontificia Univerisdad Javeriana Cali |
institution |
Pontificia Universidad Javeriana Cali |
bitstream.url.fl_str_mv |
https://vitela.javerianacali.edu.co/bitstreams/02db728b-1217-44d3-bf25-66dbbf620d49/download https://vitela.javerianacali.edu.co/bitstreams/44ae2a19-da65-456c-97f7-776cbaaac78a/download https://vitela.javerianacali.edu.co/bitstreams/f16c96c9-6e29-45cf-8d4a-44ef546c0187/download https://vitela.javerianacali.edu.co/bitstreams/1692413c-0bd1-4aef-8ad6-0c677aa52c4d/download https://vitela.javerianacali.edu.co/bitstreams/3698fbdb-24ab-48d7-bc8d-fd142141909c/download https://vitela.javerianacali.edu.co/bitstreams/91f07911-153c-45fb-9b6d-49bcda3275a7/download https://vitela.javerianacali.edu.co/bitstreams/ef1b9dc0-7140-47e9-8e1f-a538969ba16f/download https://vitela.javerianacali.edu.co/bitstreams/b1494d19-d43b-4920-aa92-00b44b399dae/download https://vitela.javerianacali.edu.co/bitstreams/37d01b1a-9e7f-474b-836f-26067a566eb5/download https://vitela.javerianacali.edu.co/bitstreams/8f779cd2-1cde-4c46-93ae-8ac58d536acd/download |
bitstream.checksum.fl_str_mv |
5066eeba3bb36717276f72e9b8305a07 50f8d18a0f06542eff785e19992479b2 a8c2db17549ba184c69662606d792719 8a4605be74aa9ea9d79846c1fba20a33 134743a40f197f3fbc7a98677341e0ca 1a90c585c6c3029d160f8c543abe8889 7d6f5146b96d5aa26226db048bd76b4c 2b6c3e239a49510e6ff0aba85c457fc2 c80efd0459e0d2f2e8eb6c6f3bf0e90f cd55239c0085652ed784d39b8b69c867 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 MD5 MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositorio Vitela |
repository.mail.fl_str_mv |
vitela.mail@javerianacali.edu.co |
_version_ |
1812095061619376128 |
spelling |
Pabón Burbano, María ConstanzaOcampo Morales, Kevin StevenArango Salazar, Juan Sebastian2024-06-18T00:52:31Z2024-06-18T00:52:31Z2023https://vitela.javerianacali.edu.co/handle/11522/2855Este proyecto de investigación se centró en el estudio y desarrollo de modelos de aprendizaje automático supervisado, incluyendo variantes de Naive Bayes, máquinas de soporte vectorial y redes neuronales convolucionales, con el propósito de identificar y clasificar tweets como ofensivos o no ofensivos. A lo largo de esta investigación, se siguieron varios pasos fundamentales que desempeñaron un papel importante en la creación de los modelos finales. Los diversos procesos experimentales desarrollados a lo largo de la investigación arrojaron resultados de relevancia. Inicialmente, se implementaron modelos base predeterminados disponibles en las librerías. A medida que avanzábamos e iteramos, además de la constante incorporación de métodos y técnicas más avanzadas que permitían enriquecer y perfeccionar los modelos. Al concluir la investigación tanto los modelos de Naive Bayes, junto con el modelo de máquinas de soporte vectorial, arrojaron resultados excelentes durante las fases de entrenamiento, pero al momento de comprobar con la fase de prueba los resultados fueron deficientes. A pesar de implementar diversas estrategias, métodos y técnicas para mejorar su eficacia en el proceso de la clasificación de tweets, no se logró un desempeño satisfactorio debido a problemas de sobreajuste. Además, el modelo de redes neuronales, junto con las técnicas implementadas para optimizar su rendimiento, demostró ser efectivo al proporcionar resultados satisfactorios. En resumen, este estudio facilitó la exploración de diversos métodos y técnicas en el desarrollo de modelos de clasificación, destacando la relevancia de la iteración continua para el constante perfeccionamiento de la investigación.Social networks are digital applications or platforms that allow the exchange of information between individuals, the creation of communities, sites of expression, among others. Thanks to them, people have a means to share their ideas or opinions on a particular topic, thus exercising their universal right to free expression. These include websites such as Twitter, where users can express themselves through text, audiovisual content, images or emojis. Due to the freedom they offer, the anonymity and the increasingly marked polarization in society, they give rise to the use of offensive language and toxic or negative content that some subjects generate towards others with the inten tion of offending, hurting or discriminating. This is why sentiment analysis, in conjunction with machine learning, is presented as an area of study and a very useful tool to detect and counteract this problem. Techniques are used to determine the type of intention that has the content shared by people in this social network, distinguishing between positive or negative. In particular, our project seeks, through the use of this previously mentioned system, to develop models that allow classifying text messages coming from Twitter (tweets) into offensive and non-offensive, using sentiment analysis.59 p.application/pdfspaPontificia Univerisdad Javeriana Calihttps://creativecommons.org/licenses/by-nc-nd/4.0/https://creativecommons.org/licenses/by-nc-nd/4.0/http://purl.org/coar/access_right/c_abf2Redes socialesLibertad de expresiónLenguaje ofensivoAnálisis de sentimientosAprendizaje automáticoClasificaciónIdentificación de lenguaje ofensivo en mensajes de texto, utilizando técnicas de aprendizaje automáticohttp://purl.org/coar/resource_type/c_7a1fTesis/Trabajo de grado - Monografía - Pregradohttps://purl.org/redcol/resource_type/TPFacultad de Ingeniería y Ciencias. Ingeniería de Sistemas y ComputaciónPontificia Universidad Javeriana CaliPregradoIngeniero(a)de Sistemas y ComputaciónORIGINALIdentificación_lenguaje_ofensivo.pdf.pdfIdentificación_lenguaje_ofensivo.pdf.pdfapplication/pdf1534534https://vitela.javerianacali.edu.co/bitstreams/02db728b-1217-44d3-bf25-66dbbf620d49/download5066eeba3bb36717276f72e9b8305a07MD52Articulo_cientifico.pdfArticulo_cientifico.pdfapplication/pdf148064https://vitela.javerianacali.edu.co/bitstreams/44ae2a19-da65-456c-97f7-776cbaaac78a/download50f8d18a0f06542eff785e19992479b2MD53Licencia_autorizacion.pdfLicencia_autorizacion.pdfapplication/pdf757167https://vitela.javerianacali.edu.co/bitstreams/f16c96c9-6e29-45cf-8d4a-44ef546c0187/downloada8c2db17549ba184c69662606d792719MD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://vitela.javerianacali.edu.co/bitstreams/1692413c-0bd1-4aef-8ad6-0c677aa52c4d/download8a4605be74aa9ea9d79846c1fba20a33MD54TEXTIdentificación_lenguaje_ofensivo.pdf.pdf.txtIdentificación_lenguaje_ofensivo.pdf.pdf.txtExtracted texttext/plain102183https://vitela.javerianacali.edu.co/bitstreams/3698fbdb-24ab-48d7-bc8d-fd142141909c/download134743a40f197f3fbc7a98677341e0caMD55Articulo_cientifico.pdf.txtArticulo_cientifico.pdf.txtExtracted texttext/plain15114https://vitela.javerianacali.edu.co/bitstreams/91f07911-153c-45fb-9b6d-49bcda3275a7/download1a90c585c6c3029d160f8c543abe8889MD57Licencia_autorizacion.pdf.txtLicencia_autorizacion.pdf.txtExtracted texttext/plain5106https://vitela.javerianacali.edu.co/bitstreams/ef1b9dc0-7140-47e9-8e1f-a538969ba16f/download7d6f5146b96d5aa26226db048bd76b4cMD58THUMBNAILIdentificación_lenguaje_ofensivo.pdf.pdf.jpgIdentificación_lenguaje_ofensivo.pdf.pdf.jpgGenerated Thumbnailimage/jpeg3949https://vitela.javerianacali.edu.co/bitstreams/b1494d19-d43b-4920-aa92-00b44b399dae/download2b6c3e239a49510e6ff0aba85c457fc2MD56Licencia_autorizacion.pdf.jpgLicencia_autorizacion.pdf.jpgGenerated Thumbnailimage/jpeg5332https://vitela.javerianacali.edu.co/bitstreams/37d01b1a-9e7f-474b-836f-26067a566eb5/downloadc80efd0459e0d2f2e8eb6c6f3bf0e90fMD59Articulo_cientifico.pdf.jpgArticulo_cientifico.pdf.jpgGenerated Thumbnailimage/jpeg5319https://vitela.javerianacali.edu.co/bitstreams/8f779cd2-1cde-4c46-93ae-8ac58d536acd/downloadcd55239c0085652ed784d39b8b69c867MD51011522/2855oai:vitela.javerianacali.edu.co:11522/28552024-06-25 05:15:39.579https://creativecommons.org/licenses/by-nc-nd/4.0/open.accesshttps://vitela.javerianacali.edu.coRepositorio Vitelavitela.mail@javerianacali.edu.coTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo= |