Análisis de la discriminación de género que existe en la clasificación única de ocupaciones para Colombia utilizando procesamiento del lenguaje natural
La selección/reclutamiento de personal idóneo para la ocupación de un puesto de trabajo, asignación salarial u otras prácticas en el ámbito laboral colombiano por medio de técnicas de inteligencia artificial, puede incurrir en discriminación (por características intrínsecas de las personas) y perpet...
- Autores:
-
Ramos Cuello, Deimer De Jesús
- Tipo de recurso:
- Fecha de publicación:
- 2023
- Institución:
- Universidad Autónoma de Bucaramanga - UNAB
- Repositorio:
- Repositorio UNAB
- Idioma:
- spa
- OAI Identifier:
- oai:repository.unab.edu.co:20.500.12749/22679
- Acceso en línea:
- http://hdl.handle.net/20.500.12749/22679
- Palabra clave:
- Systems engineer
Software development
Discrimination
Natural language processing
Words embeddings
Occupation
Programming language
Electronic data processing
Computational linguistics
Machine languages
Desarrollo de Software
Ingeniería de sistemas
Lenguaje de programación
Procesamiento electrónico de datos
Lingüística computacional
Lenguajes de máquina
Discriminación
Ocupaciones
Procesamiento del lenguaje natural
Incrustaciones de palabras
- Rights
- License
- http://creativecommons.org/licenses/by-nc-nd/2.5/co/
id |
UNAB2_8c8bb0c7da385a3e11b68a4959745101 |
---|---|
oai_identifier_str |
oai:repository.unab.edu.co:20.500.12749/22679 |
network_acronym_str |
UNAB2 |
network_name_str |
Repositorio UNAB |
repository_id_str |
|
dc.title.spa.fl_str_mv |
Análisis de la discriminación de género que existe en la clasificación única de ocupaciones para Colombia utilizando procesamiento del lenguaje natural |
dc.title.translated.spa.fl_str_mv |
Analysis of the gender discrimination that exists in the unique classification of occupations for Colombia using natural language processing |
title |
Análisis de la discriminación de género que existe en la clasificación única de ocupaciones para Colombia utilizando procesamiento del lenguaje natural |
spellingShingle |
Análisis de la discriminación de género que existe en la clasificación única de ocupaciones para Colombia utilizando procesamiento del lenguaje natural Systems engineer Software development Discrimination Natural language processing Words embeddings Occupation Programming language Electronic data processing Computational linguistics Machine languages Desarrollo de Software Ingeniería de sistemas Lenguaje de programación Procesamiento electrónico de datos Lingüística computacional Lenguajes de máquina Discriminación Ocupaciones Procesamiento del lenguaje natural Incrustaciones de palabras |
title_short |
Análisis de la discriminación de género que existe en la clasificación única de ocupaciones para Colombia utilizando procesamiento del lenguaje natural |
title_full |
Análisis de la discriminación de género que existe en la clasificación única de ocupaciones para Colombia utilizando procesamiento del lenguaje natural |
title_fullStr |
Análisis de la discriminación de género que existe en la clasificación única de ocupaciones para Colombia utilizando procesamiento del lenguaje natural |
title_full_unstemmed |
Análisis de la discriminación de género que existe en la clasificación única de ocupaciones para Colombia utilizando procesamiento del lenguaje natural |
title_sort |
Análisis de la discriminación de género que existe en la clasificación única de ocupaciones para Colombia utilizando procesamiento del lenguaje natural |
dc.creator.fl_str_mv |
Ramos Cuello, Deimer De Jesús |
dc.contributor.advisor.none.fl_str_mv |
Calderón, Liliana Rosado Gomez, Alveiro |
dc.contributor.author.none.fl_str_mv |
Ramos Cuello, Deimer De Jesús |
dc.contributor.cvlac.spa.fl_str_mv |
Rosado Gomez, Alveiro [0001350760] |
dc.contributor.googlescholar.spa.fl_str_mv |
Rosado Gomez, Alveiro [es&oi=ao] |
dc.contributor.orcid.spa.fl_str_mv |
Rosado Gomez, Alveiro [0000-0003-2932-3383] |
dc.subject.keywords.spa.fl_str_mv |
Systems engineer Software development Discrimination Natural language processing Words embeddings Occupation Programming language Electronic data processing Computational linguistics Machine languages |
topic |
Systems engineer Software development Discrimination Natural language processing Words embeddings Occupation Programming language Electronic data processing Computational linguistics Machine languages Desarrollo de Software Ingeniería de sistemas Lenguaje de programación Procesamiento electrónico de datos Lingüística computacional Lenguajes de máquina Discriminación Ocupaciones Procesamiento del lenguaje natural Incrustaciones de palabras |
dc.subject.lemb.spa.fl_str_mv |
Desarrollo de Software Ingeniería de sistemas Lenguaje de programación Procesamiento electrónico de datos Lingüística computacional Lenguajes de máquina |
dc.subject.proposal.spa.fl_str_mv |
Discriminación Ocupaciones Procesamiento del lenguaje natural Incrustaciones de palabras |
description |
La selección/reclutamiento de personal idóneo para la ocupación de un puesto de trabajo, asignación salarial u otras prácticas en el ámbito laboral colombiano por medio de técnicas de inteligencia artificial, puede incurrir en discriminación (por características intrínsecas de las personas) y perpetuación de este flagelo social. En este trabajo se realizó un análisis de las tendencias desproporcionadas y/o favorecimientos hacia un género que podrían ser generados por modelos de aprendizaje automático (inteligencia artificial) sustentados en la clasificación única de ocupaciones en Colombia (CUOC). Se utilizaron los modelos pre-entrenados de incrustaciones de palabras: Word2Vec, FastText, Glove y Wiki2Vec. Se desarrollaron modelos de clasificación y regresión, como: RandomForest, DecisionTree, XgBoost, LightGBM y otros. |
publishDate |
2023 |
dc.date.accessioned.none.fl_str_mv |
2023-11-09T01:20:46Z |
dc.date.available.none.fl_str_mv |
2023-11-09T01:20:46Z |
dc.date.issued.none.fl_str_mv |
2023-11-08 |
dc.type.driver.none.fl_str_mv |
info:eu-repo/semantics/masterThesis |
dc.type.local.spa.fl_str_mv |
Tesis |
dc.type.hasversion.none.fl_str_mv |
info:eu-repo/semantics/acceptedVersion |
dc.type.redcol.none.fl_str_mv |
http://purl.org/redcol/resource_type/TM |
status_str |
acceptedVersion |
dc.identifier.uri.none.fl_str_mv |
http://hdl.handle.net/20.500.12749/22679 |
dc.identifier.instname.spa.fl_str_mv |
instname:Universidad Autónoma de Bucaramanga - UNAB |
dc.identifier.reponame.spa.fl_str_mv |
reponame:Repositorio Institucional UNAB |
dc.identifier.repourl.spa.fl_str_mv |
repourl:https://repository.unab.edu.co |
url |
http://hdl.handle.net/20.500.12749/22679 |
identifier_str_mv |
instname:Universidad Autónoma de Bucaramanga - UNAB reponame:Repositorio Institucional UNAB repourl:https://repository.unab.edu.co |
dc.language.iso.spa.fl_str_mv |
spa |
language |
spa |
dc.relation.references.spa.fl_str_mv |
Agudelo-Giraldo, O. A., León Molina, J. E., Prieto Salas, M. A., Alarcón-Peña, A., &Jiménez-Triana, J. C. (2018). La). La pregunta por el método: derecho y metodología de la investigación.Bogotáinvestigación. :UniversidadBogotá: Universidad Católica de Colombia Alvarez, J. E., & Bast, H. (2017). A review of word embedding and document similarity algorithms applied to academic text. Bachelor thesis. Benítez, R., Escudero, G., Kanaan, S., & Rodó, D. M. (2014). Inteligencia artificial avanzada. Editorial UOC. Brazdil, P., y Jorge, A. (Eds.). (2001). Progress in Artificial Intelligence: Knowledge Extraction, Multi-agent Systems,Logic Programming, and Constraint Solving. Berlin, Heidelberg: Springer Berlin Heidelberg. https://doi.org/10.1007/3-540-45329-6 Caliskan, A., Bryson, J. J., & Narayanan, A. (2017). Semantics derived automatically from language corpora contain human-like biases. Science, 356(6334), 183-186. Camacho, M., & Navarro, E. (Marzo de 2020). Procesamiento del lenguaje natural con Python Natural language processing with Python. (U. d. Facultad de Ingeniería Electromecánica, Ed.) Procesamiento del lenguaje natural, 4(13), 24-28. Chen, T., & Guestrin, C. (2016, March). XGBoost: A scalable tree boosting system. arXiv preprint arXiv:1603.02754. DANE - Clasificación Internacional Uniforme de Ocupaciones (CIUO). (2023). Dane.gov.co. https://www.dane.gov.co/index.php/sistema-estadistico-nacional-sen/normas-y-estandares/nomenclaturas-y-clasificaciones/clasificaciones/clasificacion-internacional-uniforme-de-ocupaciones-ciuo DANE - Trabajo infantil. (2023). Dane.gov.co. https://www.dane.gov.co/index.php/estadisticas-por-tema/mercado-laboral/trabajo-infantil DANE. (2023). Mercado laboral según sexo. https://www.dane.gov.co/files/operaciones/GEIH/mercado-laboral-segun-sexo/bol-GEIH-MLS-abr2023.pdf de, D. (2023, March 10). Gran Encuesta Integrada de Hogares - GEIH - 2023. - Colombia. Dane.gov.co. https://microdatos.dane.gov.co/index.php/catalog/782 de, M. (2019). Páginas - Ciclo de Vida. Minsalud.gov.co. https://www.minsalud.gov.co/proteccionsocial/Paginas/cicloVida.aspx De-Arteaga, M., Romanov, A., Wallach, H., Chayes, J., Borgs, C., Chouldechova, A., ... & Kalai, A. T. (2019, January). Bias in bios: A case study of semantic representation bias in a high-stakes setting. In proceedings of the Conference on Fairness, Accountability, and Transparency (pp. 120-128). Decision Tree - GeeksforGeeks. (2017). Retrieved 1 December 2022, from https://www.geeksforgeeks.org/decision-tree/ Dev, S., & Phillips, J. (2019, April). Attenuating bias in word vectors. In The 22nd international conference on artificial intelligence and statistics (pp. 879-887). PMLR. Dobrev, D. (2004). A definition of artificial intelligence. arXiv preprint arXiv:1210.1568. El Joudi, N. A., Othmani, M. B., Bourzgui, F., Mahboub, O., & Lazaar, M. (2022). Review of the role of Artificial Intelligence in dentistry: Current applications and trends. Procedia Computer Science, 210, 173-180. Escobar Macías, A. D. (2019). Análisis del uso del procesamiento del lenguaje natural y su aplicación en sistemas conversacionales (Doctoral dissertation, Universidad de Guayaquil. Facultad de Ciencias Matemáticas y Físicas. Carrera de Ingeniería en Networking y Telecomunicaciones). Farzana, S. M. (2021). Enhancing Term-Based Document Retrieval by Word Embedding and Transformer Models (Doctoral dissertation, Rheinische Friedrich-Wilhelms-Universität Bonn). Giró, J. L. M. (2020). El masculino inclusivo en español. Revista Española de Lingüística, 50(1), 35-64. Gopchandani, S. (2019). Using Word Embeddings to Explore the Language of Depression on Twitter. The University of Vermont and State Agricultural College. Harrell, F. E. (2019). Regression Modeling Strategies. 3ra ed. Springer. Hernández, M., & Gómez, J. (31 de Julio de 2013). Aplicaciones de procesamiento de lenguaje natural. Revista Politécnica, 32(1), 87-96. Hyndman, R. J., & Athanasopoulos, G. (2018). Forecasting: Principles and practice. 3ra ed. OTexts. Kamkarhaghighi, M. (2019). Global-local word embedding for text classification (Doctoral dissertation, University of Ontario Institute of Technology (Canada)). Keiff, M. R. (2021). Quantifying Social Biases in News Articles with Word Embeddings. Kirasich, K., Smith, T., & Sadler, B. (2018). Random forest vs logistic regression: binary classification for heterogeneous datasets. SMU Data Science Review, 1(3), 9. Kowsari, K., Jafari Meimandi, K., Heidarysafa, M., Mendu, S., Barnes, L., & Brown, D. (2019). Text classification algorithms: A survey. Information, 10(4), 150. K2 Analytics. (2020, June 19). Missing Value Imputation using KNN | K2 Analytics. K2 Analytics. https://www.k2analytics.co.in/missing-value-imputation-using-knn/ Li, J., Gao, F., Lin, S., Guo, M., Li, Y., Liu, H., ... & Wen, Q. (2023). Quantum k-fold cross-validation for nearest neighbor classification algorithm. Physica A: Statistical Mechanics and its Applications, 611, 128435. Linear Regression in Machine learning - Javatpoint. (2021). Www.javatpoint.com. https://www.javatpoint.com/linear-regression-in-machine-learning Linear Regression in Machine learning. (2018, September 13). GeeksforGeeks; GeeksforGeeks. https://www.geeksforgeeks.org/ml-linear-regression/ López, D. I. P., & Delgado, C. C. (2015). El género desde las y los estudiantes de licenciatura: un análisis a través de las representaciones sociales. JÓVENES EN LA CIENCIA, 1(2), 1052-1056. machinelearningparatodos. (2018). Tipos de aprendizaje automático. Recuperado de: https://machinelearningparatodos.com/tipos-de-aprendizaje-automatico/ Martínez, C. D., García, P. D., & Sustaeta, P. N. (2020). Sesgos de género ocultos en los macrodatos y revelados mediante redes neurales. Reis: Revista Española de Investigaciones Sociológicas, (172), 41-59. May, C., Wang, A., Bordia, S., Bowman, S. R., & Rudinger, R. (2019). On measuring social biases in sentence encoders. arXiv preprint arXiv:1903.10561. ML | Linear Discriminant Analysis - GeeksforGeeks. (2019). Retrieved 1 December 2022, from https://www.geeksforgeeks.org/ml-linear-discriminant-analysis/ Nadeem, M., Bethke, A., & Reddy, S. (2020). Stereoset: Measuring stereotypical bias in pretrained language models. arXiv preprint arXiv:2004.09456. National Academies of Sciences, Engineering, and Medicine. (2019). The Risk of Bias in Artificial Intelligence. Washington, DC: The National Academies Press. Objetivos y metas de desarrollo sostenible - Desarrollo Sostenible. (2022). Retrieved 18 July 2022, from https://www.un.org/sustainabledevelopment/es/objetivos-de-desarrollo-sostenible/ Observatorio Laboral y Ocupacional Colombiano. (2021). Sena.edu.co. https://observatorio.sena.edu.co/clasificacion/cno Ogunfowora, O., & Najjaran, H. (2023). Reinforcement and deep reinforcement learning-based solutions for machine maintenance planning, scheduling policies, and optimization. Journal of Manufacturing Systems, 70, 244-263. Papakyriakopoulos, O., Hegelich, S., Serrano, J. C. M., & Marco, F. (2020, January). Bias in word embeddings. In Proceedings of the 2020 conference on fairness, accountability, and transparency (pp. 446-457). Pennington, J., Socher, R., & Manning, C. D. (2014, October). Glove: Global vectors for word representation. In Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP) (pp. 1532-1543). Pessach, D., & Shmueli, E. (2020). Algorithmic fairness. arXiv preprint arXiv:2001.09784. Python Imputation using the KNNimputer. (2020, August 10). GeeksforGeeks; GeeksforGeeks. https://www.geeksforgeeks.org/python-imputation-using-the-knnimputer/ Ravali, R. S., Vijayakumar, T. M., Lakshmi, K. S., Mavaluru, D., Reddy, L. V., Retnadhas, M., & Thomas, T. (2022). A systematic review of artificial intelligence for pediatric physiotherapy practice: past, present, and future. Neuroscience Informatics, 2(4), 100045. Roca, L. V. (1992). El género gramatical en español, reflejo del dominio masculino. Política y cultura, (1), 219-229. Rodrigo, J. (2022). Análisis de Componentes Principales (Principal Component Analysis, PCA) y t-SNE. Retrieved 1 December 2022, from https://www.cienciadedatos.net/documentos/35_principal_component_analysis Rouhiainen, L. (2018). Inteligencia artificial. Madrid: Alienta Editorial. Sandoval Serrano, L. J. (2018). Algoritmos de aprendizaje automático para análisis y predicción de datos. Revista Tecnológica; no. 11. Sheykhmousa, M., Mahdianpari, M., Ghanbari, H., Mohammadimanesh, F., Ghamisi, P., & Homayouni, S. (2020). Support vector machine versus random forest for remote sensing image classification: A meta-analysis and systematic review. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 13, 6308-6325. sklearn.linear_model.LinearRegression. (2023). Scikit-Learn. https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html sklearn.tree.DecisionTreeRegressor. (2023). Scikit-Learn. https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeRegressor.html Sosnick, M. A. (2017). Exploring Fairness and Bias in Algorithms and Word Embedding (Doctoral dissertation, University of Pennsylvania). Sutton, A. J. (2021). Concepts in Word Embeddings: Theory and Applications (Doctoral dissertation, University of Bristol). Sutton, R. S., & Barto, A. G. (2018). Reinforcement learning: An introduction (3rd ed.). MIT Press. Sweeney, L. (2013). Discrimination in online ad delivery. Communications of the ACM, 56(5), 44-54. Tan, Y. C., & Celis, L. E. (2019). Assessing social and intersectional biases in contextualized word representations. Advances in Neural Information Processing Systems, 32. Team, N. (2022, April 7). Unsupervised Learning Types, Algorithms and Applications - Nixus. Nixus. https://nixustechnologies.com/unsupervised-machine-learning/ Top 10 Dimensionality Reduction Techniques For Machine Learning | upGrad blog. (2020). Retrieved 1 December 2022, from https://www.upgrad.com/blog/top-dimensionality-reduction-techniques-for-machine-learning/ Umadevi, S., & Marseline, K. J. (2017, July). A survey on data mining classification algorithms. In 2017 International Conference on Signal Processing and Communication (ICSPC) (pp. 264-268). IEEE. Various ways to evaluate a machine learning models performance. (2019). Retrieved 1 December 2022, from https://towardsdatascience.com/various-ways-to-evaluate-a-machine-learning-models-performance-230449055f15 Vásquez, A. C., Quispe, J., & Huayna, A. (Julio - Diciembre de 2009). Procesamiento de lenguaje natural. Revista de investigación de Sistemas e Informática, 6(2), 45-54. What is a Machine Learning Pipeline (2022). Available at: https://valohai.com/machine-learning-pipeline/ (Accessed: 1 December 2022). Word Embeddings in NLP - GeeksforGeeks. (2020). Retrieved 1 December 2022, from https://www.geeksforgeeks.org/word-embeddings-in-nlp/ Zhao, J., Wang, T., Yatskar, M., Ordonez, V., & Chang, K. W. (2017). Men also like shopping: Reducing gender bias amplification using corpus-level constraints. arXiv preprint arXiv:1707.09457. Zou, M., Jiang, W. G., Qin, Q. H., Liu, Y. C., & Li, M. L. (2022). Optimized XGBoost model with small dataset for predicting relative density of Ti-6Al-4V parts manufactured by selective laser melting. Materials, 15(15), 5298. |
dc.rights.coar.fl_str_mv |
http://purl.org/coar/access_right/c_abf2 |
dc.rights.uri.*.fl_str_mv |
http://creativecommons.org/licenses/by-nc-nd/2.5/co/ |
dc.rights.local.spa.fl_str_mv |
Abierto (Texto Completo) |
dc.rights.creativecommons.*.fl_str_mv |
Atribución-NoComercial-SinDerivadas 2.5 Colombia |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-nd/2.5/co/ Abierto (Texto Completo) Atribución-NoComercial-SinDerivadas 2.5 Colombia http://purl.org/coar/access_right/c_abf2 |
dc.format.mimetype.spa.fl_str_mv |
application/pdf |
dc.coverage.spatial.spa.fl_str_mv |
Córdoba (Colombia) |
dc.coverage.campus.spa.fl_str_mv |
UNAB Campus Bucaramanga |
dc.publisher.grantor.spa.fl_str_mv |
Universidad Autónoma de Bucaramanga UNAB |
dc.publisher.faculty.spa.fl_str_mv |
Facultad Ingeniería |
dc.publisher.program.spa.fl_str_mv |
Maestría en Gestión, Aplicación y Desarrollo de Software |
institution |
Universidad Autónoma de Bucaramanga - UNAB |
bitstream.url.fl_str_mv |
https://repository.unab.edu.co/bitstream/20.500.12749/22679/1/2023_Tesis_Deimer_Ramos.pdf https://repository.unab.edu.co/bitstream/20.500.12749/22679/6/Licencia.pdf https://repository.unab.edu.co/bitstream/20.500.12749/22679/5/license.txt https://repository.unab.edu.co/bitstream/20.500.12749/22679/7/2023_Tesis_Deimer_Ramos.pdf.jpg https://repository.unab.edu.co/bitstream/20.500.12749/22679/8/Licencia.pdf.jpg |
bitstream.checksum.fl_str_mv |
acb0894bc6471890836d8f63e22861a1 41712173a75e119daa119fff2e51d0ee 3755c0cfdb77e29f2b9125d7a45dd316 87106b1b8f288cb74e35ea7bc4552604 2b440844d2dd077ff43fee66824027f7 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositorio Institucional | Universidad Autónoma de Bucaramanga - UNAB |
repository.mail.fl_str_mv |
repositorio@unab.edu.co |
_version_ |
1814277880045109248 |
spelling |
Calderón, Lilianaae7d6b08-b89e-43e7-ac42-4ddf069017abRosado Gomez, Alveiro0337fe02-38b3-4c48-ad58-16f85bd42664Ramos Cuello, Deimer De Jesúse3eb121a-031c-460a-aaec-b66e61a7e1dbRosado Gomez, Alveiro [0001350760]Rosado Gomez, Alveiro [es&oi=ao]Rosado Gomez, Alveiro [0000-0003-2932-3383]Córdoba (Colombia)UNAB Campus Bucaramanga2023-11-09T01:20:46Z2023-11-09T01:20:46Z2023-11-08http://hdl.handle.net/20.500.12749/22679instname:Universidad Autónoma de Bucaramanga - UNABreponame:Repositorio Institucional UNABrepourl:https://repository.unab.edu.coLa selección/reclutamiento de personal idóneo para la ocupación de un puesto de trabajo, asignación salarial u otras prácticas en el ámbito laboral colombiano por medio de técnicas de inteligencia artificial, puede incurrir en discriminación (por características intrínsecas de las personas) y perpetuación de este flagelo social. En este trabajo se realizó un análisis de las tendencias desproporcionadas y/o favorecimientos hacia un género que podrían ser generados por modelos de aprendizaje automático (inteligencia artificial) sustentados en la clasificación única de ocupaciones en Colombia (CUOC). Se utilizaron los modelos pre-entrenados de incrustaciones de palabras: Word2Vec, FastText, Glove y Wiki2Vec. Se desarrollaron modelos de clasificación y regresión, como: RandomForest, DecisionTree, XgBoost, LightGBM y otros.Universidad de CórdobaINTRODUCCIÓN..............................................................................................................11 1 MARCO TEORICO........................................................................................................19 1.1 INTELIGENCIA ARTIFICIAL..................................................................................... 19 1.1.1 APRENDIZAJE AUTOMÁTICO.............................................................................. 20 1.1.2 PROCESAMIENTO DEL LENGUAJE NATURAL:................................................. 24 1.1.2.1 INCRUSTACIONES DE PALABRAS (WORD EMBEDDINGS)........................... 25 1.1.2.1.1 MODELOS PRE-ENTRENADOS PARA INCRUSTACIONES DE PALABRAS: ........................................................................................................................................ 28 1.1.2.2 AL INTERIOR DE UN MODELO DE MACHINE LEARNING:.............................. 32 1.1.3 ALGORITMOS DE CLASIFICACIÓN EN MACHINE LEARNING: ......................... 37 1.1.3.1 EVALUACIÓN DE MODELOS (ALGORITMOS DE CLASIFICACIÓN)............... 40 1.1.4 ALGORITMOS DE REGRESIÓN EN MACHINE LEARNING:................................ 41 1.1.4.1 EVALUACIÓN DE MODELOS (ALGORITMOS DE REGRESIÓN) ..................... 43 1.1.5 SESGOS EN LAS INCRUSTACIONES DE PALABRAS: ...................................... 44 1.2 PALABRAS CON TENDENCIA MASCULINA, FEMENINA Y NEUTRAS: ............... 47 2 MÉTODO DE INVESTIGACIÓN ....................................................................................49 2.1 CLASIFICACIÓN ÚNICA DE OCUPACIONES DE COLOMBIA: .............................. 49 2.2 SELECCIÓN DE MODELOS PRE-ENTRENADOS DE INCRUSTACIONES DE PALABRAS: ................................................................................................................... 50 2.3 TRATAMIENTO A LAS OCUPACIONES PARA IDENTIFICAR TENDENCIAS HACIA UN SEXO: ....................................................................................................................... 50 3 RESULTADOS DE LA INVESTIGACIÓN......................................................................53 3.1 IDENTIFICACIÓN DE LAS OCUPACIONES SESGADAS CONTEMPLADAS EN LA CUOC A TRAVÉS DE MODELOS PRE-ENTRENADOS DE INCRUSTACIONES DE PALABRAS..................................................................................................................... 53 3.2 INTEGRACIÓN DE DATASETS OBTENIDOS DE EVALUAR LA CUOC EN LOS MODELOS PRE-ENTRENADOS:................................................................................... 57 3.3 CONSOLIDACIÓN CONJUNTO DE DATOS DE LA FUERZA LABORAL E INTEGRACIÓN CON LAS OCUPACIONES SESGADAS............................................... 59 3.4 ANÁLISIS DEL CONJUNTO DE DATOS INTEGRADO:........................................... 64 3.5 SELECCIÓN DE ALGORITMOS (CLASIFICACIÓN Y REGRESIÓN) Y OPTIMIZACIÓN DE LA DATA PARA ENTRENAR MODELOS DE PREDICTIVOS:...... 76 3.6 ENTRENAMIENTO DE LOS MODELOS PREDICTIVOS (CLASIFICACIÓN Y REGRESIÓN).................................................................................................................. 79 3.7 ANALISIS DE LA CANTIDAD DE MUJERES VS HOMBRES POR CADA INTERVALO DE SALARIO (1-5) (INTERVALOS APLICADOS PARA LOS MODELOS DE CLASIFICACIÓN): .................................................................................................... 83 3.8 ANALISIS DE METRICAS DE PRECISIÓN PARA LOS MODELOS DE CLASIFICACIÓN SEPARADAS POR SEXO:................................................................. 84 3.9 ANÁLISIS DE LA CURVA ROC PARA LAS PREDICCIONES DE RANGOS SALARIALES ENTRE HOMBRES Y MUJERES: ........................................................... 86 3.10 ELI5 - RANDOMFOREST........................................................................................ 89 3.11 ANALISIS DE METRICAS DE PRECISIÓN PARA LOS MODELOS DE REGRESIÓN SEPARADAS POR SEXO: ....................................................................... 90 3.12 ANÁLISIS DE CORRELACIÓN ENTRE LAS PREDICCIONES Y DATOS REALES: ........................................................................................................................................ 91 3.13 ELI5 – XGBoost...................................................................................................... 92 3.14 ANALISIS DE POSIBLES OCUPACIONES CON DISCRIMINACIÓN A TRAVÉS DE UN MODELO PRE-ENTRENADO SESGADO:............................................................... 93 3.14.1 IMPLEMENTACIÓN FASTTEXT A LOS MODELOS DE RANDOMFOREST Y XGBOOST....................................................................................................................... 93 3.14.2 ANALISIS DE LAS PREDICCIONES DE LOS MODELOS UTILIZANDO VECTORES DE PALABRAS VS OCUPACIONES EN LINEA BASE ............................. 95 4 CONCLUSIONES........................................................................................................103 5 RECOMENDACIONES Y TRABAJOS FUTUROS......................................................105 REFERENCIAS..............................................................................................................106MaestríaThe selection/recruitment of suitable personnel for the occupation of a job, salary assignment or other practices in the Colombian workplace through artificial intelligence techniques, may incur discrimination (due to intrinsic characteristics of the people) and perpetuation of this. social scourge. In this work, an analysis was carried out of the disproportionate tendencies and/or favors towards a gender that could be generated by machine learning models (artificial intelligence) supported by the unique classification of occupations in Colombia (CUOC). The pre-trained word embedding models were used: Word2Vec, FastText, Glove and Wiki2Vec. Classification and regression models were developed, such as: RandomForest, DecisionTree, XgBoost, LightGBM and others.Modalidad Virtualapplication/pdfspahttp://creativecommons.org/licenses/by-nc-nd/2.5/co/Abierto (Texto Completo)Atribución-NoComercial-SinDerivadas 2.5 Colombiahttp://purl.org/coar/access_right/c_abf2Análisis de la discriminación de género que existe en la clasificación única de ocupaciones para Colombia utilizando procesamiento del lenguaje naturalAnalysis of the gender discrimination that exists in the unique classification of occupations for Colombia using natural language processingMagíster en Gestión, Aplicación y Desarrollo de SoftwareUniversidad Autónoma de Bucaramanga UNABFacultad IngenieríaMaestría en Gestión, Aplicación y Desarrollo de Softwareinfo:eu-repo/semantics/masterThesisTesisinfo:eu-repo/semantics/acceptedVersionhttp://purl.org/redcol/resource_type/TMSystems engineerSoftware developmentDiscriminationNatural language processingWords embeddingsOccupationProgramming languageElectronic data processingComputational linguisticsMachine languagesDesarrollo de SoftwareIngeniería de sistemasLenguaje de programaciónProcesamiento electrónico de datosLingüística computacionalLenguajes de máquinaDiscriminaciónOcupacionesProcesamiento del lenguaje naturalIncrustaciones de palabrasAgudelo-Giraldo, O. A., León Molina, J. E., Prieto Salas, M. A., Alarcón-Peña, A., &Jiménez-Triana, J. C. (2018). La). La pregunta por el método: derecho y metodología de la investigación.Bogotáinvestigación. :UniversidadBogotá: Universidad Católica de ColombiaAlvarez, J. E., & Bast, H. (2017). A review of word embedding and document similarity algorithms applied to academic text. Bachelor thesis.Benítez, R., Escudero, G., Kanaan, S., & Rodó, D. M. (2014). Inteligencia artificial avanzada. Editorial UOC.Brazdil, P., y Jorge, A. (Eds.). (2001). Progress in Artificial Intelligence: Knowledge Extraction, Multi-agent Systems,Logic Programming, and Constraint Solving. Berlin, Heidelberg: Springer Berlin Heidelberg. https://doi.org/10.1007/3-540-45329-6Caliskan, A., Bryson, J. J., & Narayanan, A. (2017). Semantics derived automatically from language corpora contain human-like biases. Science, 356(6334), 183-186.Camacho, M., & Navarro, E. (Marzo de 2020). Procesamiento del lenguaje natural con Python Natural language processing with Python. (U. d. Facultad de Ingeniería Electromecánica, Ed.) Procesamiento del lenguaje natural, 4(13), 24-28.Chen, T., & Guestrin, C. (2016, March). XGBoost: A scalable tree boosting system. arXiv preprint arXiv:1603.02754.DANE - Clasificación Internacional Uniforme de Ocupaciones (CIUO). (2023). Dane.gov.co. https://www.dane.gov.co/index.php/sistema-estadistico-nacional-sen/normas-y-estandares/nomenclaturas-y-clasificaciones/clasificaciones/clasificacion-internacional-uniforme-de-ocupaciones-ciuoDANE - Trabajo infantil. (2023). Dane.gov.co. https://www.dane.gov.co/index.php/estadisticas-por-tema/mercado-laboral/trabajo-infantilDANE. (2023). Mercado laboral según sexo. https://www.dane.gov.co/files/operaciones/GEIH/mercado-laboral-segun-sexo/bol-GEIH-MLS-abr2023.pdfde, D. (2023, March 10). Gran Encuesta Integrada de Hogares - GEIH - 2023. - Colombia. Dane.gov.co. https://microdatos.dane.gov.co/index.php/catalog/782de, M. (2019). Páginas - Ciclo de Vida. Minsalud.gov.co. https://www.minsalud.gov.co/proteccionsocial/Paginas/cicloVida.aspxDe-Arteaga, M., Romanov, A., Wallach, H., Chayes, J., Borgs, C., Chouldechova, A., ... & Kalai, A. T. (2019, January). Bias in bios: A case study of semantic representation bias in a high-stakes setting. In proceedings of the Conference on Fairness, Accountability, and Transparency (pp. 120-128).Decision Tree - GeeksforGeeks. (2017). Retrieved 1 December 2022, from https://www.geeksforgeeks.org/decision-tree/Dev, S., & Phillips, J. (2019, April). Attenuating bias in word vectors. In The 22nd international conference on artificial intelligence and statistics (pp. 879-887). PMLR.Dobrev, D. (2004). A definition of artificial intelligence. arXiv preprint arXiv:1210.1568.El Joudi, N. A., Othmani, M. B., Bourzgui, F., Mahboub, O., & Lazaar, M. (2022). Review of the role of Artificial Intelligence in dentistry: Current applications and trends. Procedia Computer Science, 210, 173-180.Escobar Macías, A. D. (2019). Análisis del uso del procesamiento del lenguaje natural y su aplicación en sistemas conversacionales (Doctoral dissertation, Universidad de Guayaquil. Facultad de Ciencias Matemáticas y Físicas. Carrera de Ingeniería en Networking y Telecomunicaciones).Farzana, S. M. (2021). Enhancing Term-Based Document Retrieval by Word Embedding and Transformer Models (Doctoral dissertation, Rheinische Friedrich-Wilhelms-Universität Bonn).Giró, J. L. M. (2020). El masculino inclusivo en español. Revista Española de Lingüística, 50(1), 35-64.Gopchandani, S. (2019). Using Word Embeddings to Explore the Language of Depression on Twitter. The University of Vermont and State Agricultural College.Harrell, F. E. (2019). Regression Modeling Strategies. 3ra ed. Springer.Hernández, M., & Gómez, J. (31 de Julio de 2013). Aplicaciones de procesamiento de lenguaje natural. Revista Politécnica, 32(1), 87-96.Hyndman, R. J., & Athanasopoulos, G. (2018). Forecasting: Principles and practice. 3ra ed. OTexts.Kamkarhaghighi, M. (2019). Global-local word embedding for text classification (Doctoral dissertation, University of Ontario Institute of Technology (Canada)).Keiff, M. R. (2021). Quantifying Social Biases in News Articles with Word Embeddings.Kirasich, K., Smith, T., & Sadler, B. (2018). Random forest vs logistic regression: binary classification for heterogeneous datasets. SMU Data Science Review, 1(3), 9.Kowsari, K., Jafari Meimandi, K., Heidarysafa, M., Mendu, S., Barnes, L., & Brown, D. (2019). Text classification algorithms: A survey. Information, 10(4), 150.K2 Analytics. (2020, June 19). Missing Value Imputation using KNN | K2 Analytics. K2 Analytics. https://www.k2analytics.co.in/missing-value-imputation-using-knn/Li, J., Gao, F., Lin, S., Guo, M., Li, Y., Liu, H., ... & Wen, Q. (2023). Quantum k-fold cross-validation for nearest neighbor classification algorithm. Physica A: Statistical Mechanics and its Applications, 611, 128435.Linear Regression in Machine learning - Javatpoint. (2021). Www.javatpoint.com. https://www.javatpoint.com/linear-regression-in-machine-learningLinear Regression in Machine learning. (2018, September 13). GeeksforGeeks; GeeksforGeeks. https://www.geeksforgeeks.org/ml-linear-regression/López, D. I. P., & Delgado, C. C. (2015). El género desde las y los estudiantes de licenciatura: un análisis a través de las representaciones sociales. JÓVENES EN LA CIENCIA, 1(2), 1052-1056.machinelearningparatodos. (2018). Tipos de aprendizaje automático. Recuperado de: https://machinelearningparatodos.com/tipos-de-aprendizaje-automatico/Martínez, C. D., García, P. D., & Sustaeta, P. N. (2020). Sesgos de género ocultos en los macrodatos y revelados mediante redes neurales. Reis: Revista Española de Investigaciones Sociológicas, (172), 41-59.May, C., Wang, A., Bordia, S., Bowman, S. R., & Rudinger, R. (2019). On measuring social biases in sentence encoders. arXiv preprint arXiv:1903.10561.ML | Linear Discriminant Analysis - GeeksforGeeks. (2019). Retrieved 1 December 2022, from https://www.geeksforgeeks.org/ml-linear-discriminant-analysis/Nadeem, M., Bethke, A., & Reddy, S. (2020). Stereoset: Measuring stereotypical bias in pretrained language models. arXiv preprint arXiv:2004.09456.National Academies of Sciences, Engineering, and Medicine. (2019). The Risk of Bias in Artificial Intelligence. Washington, DC: The National Academies Press.Objetivos y metas de desarrollo sostenible - Desarrollo Sostenible. (2022). Retrieved 18 July 2022, from https://www.un.org/sustainabledevelopment/es/objetivos-de-desarrollo-sostenible/Observatorio Laboral y Ocupacional Colombiano. (2021). Sena.edu.co. https://observatorio.sena.edu.co/clasificacion/cnoOgunfowora, O., & Najjaran, H. (2023). Reinforcement and deep reinforcement learning-based solutions for machine maintenance planning, scheduling policies, and optimization. Journal of Manufacturing Systems, 70, 244-263.Papakyriakopoulos, O., Hegelich, S., Serrano, J. C. M., & Marco, F. (2020, January). Bias in word embeddings. In Proceedings of the 2020 conference on fairness, accountability, and transparency (pp. 446-457).Pennington, J., Socher, R., & Manning, C. D. (2014, October). Glove: Global vectors for word representation. In Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP) (pp. 1532-1543).Pessach, D., & Shmueli, E. (2020). Algorithmic fairness. arXiv preprint arXiv:2001.09784.Python Imputation using the KNNimputer. (2020, August 10). GeeksforGeeks; GeeksforGeeks. https://www.geeksforgeeks.org/python-imputation-using-the-knnimputer/Ravali, R. S., Vijayakumar, T. M., Lakshmi, K. S., Mavaluru, D., Reddy, L. V., Retnadhas, M., & Thomas, T. (2022). A systematic review of artificial intelligence for pediatric physiotherapy practice: past, present, and future. Neuroscience Informatics, 2(4), 100045.Roca, L. V. (1992). El género gramatical en español, reflejo del dominio masculino. Política y cultura, (1), 219-229.Rodrigo, J. (2022). Análisis de Componentes Principales (Principal Component Analysis, PCA) y t-SNE. Retrieved 1 December 2022, from https://www.cienciadedatos.net/documentos/35_principal_component_analysisRouhiainen, L. (2018). Inteligencia artificial. Madrid: Alienta Editorial.Sandoval Serrano, L. J. (2018). Algoritmos de aprendizaje automático para análisis y predicción de datos. Revista Tecnológica; no. 11.Sheykhmousa, M., Mahdianpari, M., Ghanbari, H., Mohammadimanesh, F., Ghamisi, P., & Homayouni, S. (2020). Support vector machine versus random forest for remote sensing image classification: A meta-analysis and systematic review. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 13, 6308-6325.sklearn.linear_model.LinearRegression. (2023). Scikit-Learn. https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.htmlsklearn.tree.DecisionTreeRegressor. (2023). Scikit-Learn. https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeRegressor.htmlSosnick, M. A. (2017). Exploring Fairness and Bias in Algorithms and Word Embedding (Doctoral dissertation, University of Pennsylvania).Sutton, A. J. (2021). Concepts in Word Embeddings: Theory and Applications (Doctoral dissertation, University of Bristol).Sutton, R. S., & Barto, A. G. (2018). Reinforcement learning: An introduction (3rd ed.). MIT Press.Sweeney, L. (2013). Discrimination in online ad delivery. Communications of the ACM, 56(5), 44-54.Tan, Y. C., & Celis, L. E. (2019). Assessing social and intersectional biases in contextualized word representations. Advances in Neural Information Processing Systems, 32.Team, N. (2022, April 7). Unsupervised Learning Types, Algorithms and Applications - Nixus. Nixus. https://nixustechnologies.com/unsupervised-machine-learning/Top 10 Dimensionality Reduction Techniques For Machine Learning | upGrad blog. (2020). Retrieved 1 December 2022, from https://www.upgrad.com/blog/top-dimensionality-reduction-techniques-for-machine-learning/Umadevi, S., & Marseline, K. J. (2017, July). A survey on data mining classification algorithms. In 2017 International Conference on Signal Processing and Communication (ICSPC) (pp. 264-268). IEEE.Various ways to evaluate a machine learning models performance. (2019). Retrieved 1 December 2022, from https://towardsdatascience.com/various-ways-to-evaluate-a-machine-learning-models-performance-230449055f15Vásquez, A. C., Quispe, J., & Huayna, A. (Julio - Diciembre de 2009). Procesamiento de lenguaje natural. Revista de investigación de Sistemas e Informática, 6(2), 45-54.What is a Machine Learning Pipeline (2022). Available at: https://valohai.com/machine-learning-pipeline/ (Accessed: 1 December 2022).Word Embeddings in NLP - GeeksforGeeks. (2020). Retrieved 1 December 2022, from https://www.geeksforgeeks.org/word-embeddings-in-nlp/Zhao, J., Wang, T., Yatskar, M., Ordonez, V., & Chang, K. W. (2017). Men also like shopping: Reducing gender bias amplification using corpus-level constraints. arXiv preprint arXiv:1707.09457.Zou, M., Jiang, W. G., Qin, Q. H., Liu, Y. C., & Li, M. L. (2022). Optimized XGBoost model with small dataset for predicting relative density of Ti-6Al-4V parts manufactured by selective laser melting. Materials, 15(15), 5298.ORIGINAL2023_Tesis_Deimer_Ramos.pdf2023_Tesis_Deimer_Ramos.pdfTesisapplication/pdf3679465https://repository.unab.edu.co/bitstream/20.500.12749/22679/1/2023_Tesis_Deimer_Ramos.pdfacb0894bc6471890836d8f63e22861a1MD51open accessLicencia.pdfLicencia.pdfLicenciaapplication/pdf464116https://repository.unab.edu.co/bitstream/20.500.12749/22679/6/Licencia.pdf41712173a75e119daa119fff2e51d0eeMD56open accessLICENSElicense.txtlicense.txttext/plain; charset=utf-8829https://repository.unab.edu.co/bitstream/20.500.12749/22679/5/license.txt3755c0cfdb77e29f2b9125d7a45dd316MD55open accessTHUMBNAIL2023_Tesis_Deimer_Ramos.pdf.jpg2023_Tesis_Deimer_Ramos.pdf.jpgIM Thumbnailimage/jpeg5494https://repository.unab.edu.co/bitstream/20.500.12749/22679/7/2023_Tesis_Deimer_Ramos.pdf.jpg87106b1b8f288cb74e35ea7bc4552604MD57open accessLicencia.pdf.jpgLicencia.pdf.jpgIM Thumbnailimage/jpeg6124https://repository.unab.edu.co/bitstream/20.500.12749/22679/8/Licencia.pdf.jpg2b440844d2dd077ff43fee66824027f7MD58open access20.500.12749/22679oai:repository.unab.edu.co:20.500.12749/226792024-10-18 14:59:57.315open accessRepositorio Institucional | Universidad Autónoma de Bucaramanga - UNABrepositorio@unab.edu.coRUwoTE9TKSBBVVRPUihFUyksIG1hbmlmaWVzdGEobWFuaWZlc3RhbW9zKSBxdWUgbGEgb2JyYSBvYmpldG8gZGUgbGEgcHJlc2VudGUgYXV0b3JpemFjacOzbiBlcyBvcmlnaW5hbCB5IGxhIHJlYWxpesOzIHNpbiB2aW9sYXIgbyB1c3VycGFyIGRlcmVjaG9zIGRlIGF1dG9yIGRlIHRlcmNlcm9zLCBwb3IgbG8gdGFudG8sIGxhIG9icmEgZXMgZGUgZXhjbHVzaXZhIGF1dG9yw61hIHkgdGllbmUgbGEgdGl0dWxhcmlkYWQgc29icmUgbGEgbWlzbWEuCgpFbiBjYXNvIGRlIHByZXNlbnRhcnNlIGN1YWxxdWllciByZWNsYW1hY2nDs24gbyBhY2Npw7NuIHBvciBwYXJ0ZSBkZSB1biB0ZXJjZXJvIGVuIGN1YW50byBhIGxvcyBkZXJlY2hvcyBkZSBhdXRvciBzb2JyZSBsYSBvYnJhIGVuIGN1ZXN0acOzbi4gRWwgQVVUT1IgYXN1bWlyw6EgdG9kYSBsYSByZXNwb25zYWJpbGlkYWQsIHkgc2FsZHLDoSBlbiBkZWZlbnNhIGRlIGxvcyBkZXJlY2hvcyBhcXXDrSBhdXRvcml6YWRvcywgcGFyYSB0b2RvcyBsb3MgZWZlY3RvcyBsYSBVTkFCIGFjdMO6YSBjb21vIHVuIHRlcmNlcm8gZGUgYnVlbmEgZmUuCgpFbCBBVVRPUiBhdXRvcml6YSBhIGxhIFVuaXZlcnNpZGFkIEF1dMOzbm9tYSBkZSBCdWNhcmFtYW5nYSBwYXJhIHF1ZSBlbiBsb3MgdMOpcm1pbm9zIGVzdGFibGVjaWRvcyBlbiBsYSBMZXkgMjMgZGUgMTk4MiwgTGV5IDQ0IGRlIDE5OTMsIERlY2lzacOzbiBBbmRpbmEgMzUxIGRlIDE5OTMgeSBkZW3DoXMgbm9ybWFzIGdlbmVyYWxlcyBzb2JyZSBsYSBtYXRlcmlhLCB1dGlsaWNlIGxhIG9icmEgb2JqZXRvIGRlIGxhIHByZXNlbnRlIGF1dG9yaXphY2nDs24uCg== |