Análisis de la discriminación de género que existe en la clasificación única de ocupaciones para Colombia utilizando procesamiento del lenguaje natural

La selección/reclutamiento de personal idóneo para la ocupación de un puesto de trabajo, asignación salarial u otras prácticas en el ámbito laboral colombiano por medio de técnicas de inteligencia artificial, puede incurrir en discriminación (por características intrínsecas de las personas) y perpet...

Full description

Autores:
Ramos Cuello, Deimer De Jesús
Tipo de recurso:
Fecha de publicación:
2023
Institución:
Universidad Autónoma de Bucaramanga - UNAB
Repositorio:
Repositorio UNAB
Idioma:
spa
OAI Identifier:
oai:repository.unab.edu.co:20.500.12749/22679
Acceso en línea:
http://hdl.handle.net/20.500.12749/22679
Palabra clave:
Systems engineer
Software development
Discrimination
Natural language processing
Words embeddings
Occupation
Programming language
Electronic data processing
Computational linguistics
Machine languages
Desarrollo de Software
Ingeniería de sistemas
Lenguaje de programación
Procesamiento electrónico de datos
Lingüística computacional
Lenguajes de máquina
Discriminación
Ocupaciones
Procesamiento del lenguaje natural
Incrustaciones de palabras
Rights
License
http://creativecommons.org/licenses/by-nc-nd/2.5/co/
id UNAB2_8c8bb0c7da385a3e11b68a4959745101
oai_identifier_str oai:repository.unab.edu.co:20.500.12749/22679
network_acronym_str UNAB2
network_name_str Repositorio UNAB
repository_id_str
dc.title.spa.fl_str_mv Análisis de la discriminación de género que existe en la clasificación única de ocupaciones para Colombia utilizando procesamiento del lenguaje natural
dc.title.translated.spa.fl_str_mv Analysis of the gender discrimination that exists in the unique classification of occupations for Colombia using natural language processing
title Análisis de la discriminación de género que existe en la clasificación única de ocupaciones para Colombia utilizando procesamiento del lenguaje natural
spellingShingle Análisis de la discriminación de género que existe en la clasificación única de ocupaciones para Colombia utilizando procesamiento del lenguaje natural
Systems engineer
Software development
Discrimination
Natural language processing
Words embeddings
Occupation
Programming language
Electronic data processing
Computational linguistics
Machine languages
Desarrollo de Software
Ingeniería de sistemas
Lenguaje de programación
Procesamiento electrónico de datos
Lingüística computacional
Lenguajes de máquina
Discriminación
Ocupaciones
Procesamiento del lenguaje natural
Incrustaciones de palabras
title_short Análisis de la discriminación de género que existe en la clasificación única de ocupaciones para Colombia utilizando procesamiento del lenguaje natural
title_full Análisis de la discriminación de género que existe en la clasificación única de ocupaciones para Colombia utilizando procesamiento del lenguaje natural
title_fullStr Análisis de la discriminación de género que existe en la clasificación única de ocupaciones para Colombia utilizando procesamiento del lenguaje natural
title_full_unstemmed Análisis de la discriminación de género que existe en la clasificación única de ocupaciones para Colombia utilizando procesamiento del lenguaje natural
title_sort Análisis de la discriminación de género que existe en la clasificación única de ocupaciones para Colombia utilizando procesamiento del lenguaje natural
dc.creator.fl_str_mv Ramos Cuello, Deimer De Jesús
dc.contributor.advisor.none.fl_str_mv Calderón, Liliana
Rosado Gomez, Alveiro
dc.contributor.author.none.fl_str_mv Ramos Cuello, Deimer De Jesús
dc.contributor.cvlac.spa.fl_str_mv Rosado Gomez, Alveiro [0001350760]
dc.contributor.googlescholar.spa.fl_str_mv Rosado Gomez, Alveiro [es&oi=ao]
dc.contributor.orcid.spa.fl_str_mv Rosado Gomez, Alveiro [0000-0003-2932-3383]
dc.subject.keywords.spa.fl_str_mv Systems engineer
Software development
Discrimination
Natural language processing
Words embeddings
Occupation
Programming language
Electronic data processing
Computational linguistics
Machine languages
topic Systems engineer
Software development
Discrimination
Natural language processing
Words embeddings
Occupation
Programming language
Electronic data processing
Computational linguistics
Machine languages
Desarrollo de Software
Ingeniería de sistemas
Lenguaje de programación
Procesamiento electrónico de datos
Lingüística computacional
Lenguajes de máquina
Discriminación
Ocupaciones
Procesamiento del lenguaje natural
Incrustaciones de palabras
dc.subject.lemb.spa.fl_str_mv Desarrollo de Software
Ingeniería de sistemas
Lenguaje de programación
Procesamiento electrónico de datos
Lingüística computacional
Lenguajes de máquina
dc.subject.proposal.spa.fl_str_mv Discriminación
Ocupaciones
Procesamiento del lenguaje natural
Incrustaciones de palabras
description La selección/reclutamiento de personal idóneo para la ocupación de un puesto de trabajo, asignación salarial u otras prácticas en el ámbito laboral colombiano por medio de técnicas de inteligencia artificial, puede incurrir en discriminación (por características intrínsecas de las personas) y perpetuación de este flagelo social. En este trabajo se realizó un análisis de las tendencias desproporcionadas y/o favorecimientos hacia un género que podrían ser generados por modelos de aprendizaje automático (inteligencia artificial) sustentados en la clasificación única de ocupaciones en Colombia (CUOC). Se utilizaron los modelos pre-entrenados de incrustaciones de palabras: Word2Vec, FastText, Glove y Wiki2Vec. Se desarrollaron modelos de clasificación y regresión, como: RandomForest, DecisionTree, XgBoost, LightGBM y otros.
publishDate 2023
dc.date.accessioned.none.fl_str_mv 2023-11-09T01:20:46Z
dc.date.available.none.fl_str_mv 2023-11-09T01:20:46Z
dc.date.issued.none.fl_str_mv 2023-11-08
dc.type.driver.none.fl_str_mv info:eu-repo/semantics/masterThesis
dc.type.local.spa.fl_str_mv Tesis
dc.type.hasversion.none.fl_str_mv info:eu-repo/semantics/acceptedVersion
dc.type.redcol.none.fl_str_mv http://purl.org/redcol/resource_type/TM
status_str acceptedVersion
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/20.500.12749/22679
dc.identifier.instname.spa.fl_str_mv instname:Universidad Autónoma de Bucaramanga - UNAB
dc.identifier.reponame.spa.fl_str_mv reponame:Repositorio Institucional UNAB
dc.identifier.repourl.spa.fl_str_mv repourl:https://repository.unab.edu.co
url http://hdl.handle.net/20.500.12749/22679
identifier_str_mv instname:Universidad Autónoma de Bucaramanga - UNAB
reponame:Repositorio Institucional UNAB
repourl:https://repository.unab.edu.co
dc.language.iso.spa.fl_str_mv spa
language spa
dc.relation.references.spa.fl_str_mv Agudelo-Giraldo, O. A., León Molina, J. E., Prieto Salas, M. A., Alarcón-Peña, A., &Jiménez-Triana, J. C. (2018). La). La pregunta por el método: derecho y metodología de la investigación.Bogotáinvestigación. :UniversidadBogotá: Universidad Católica de Colombia
Alvarez, J. E., & Bast, H. (2017). A review of word embedding and document similarity algorithms applied to academic text. Bachelor thesis.
Benítez, R., Escudero, G., Kanaan, S., & Rodó, D. M. (2014). Inteligencia artificial avanzada. Editorial UOC.
Brazdil, P., y Jorge, A. (Eds.). (2001). Progress in Artificial Intelligence: Knowledge Extraction, Multi-agent Systems,Logic Programming, and Constraint Solving. Berlin, Heidelberg: Springer Berlin Heidelberg. https://doi.org/10.1007/3-540-45329-6
Caliskan, A., Bryson, J. J., & Narayanan, A. (2017). Semantics derived automatically from language corpora contain human-like biases. Science, 356(6334), 183-186.
Camacho, M., & Navarro, E. (Marzo de 2020). Procesamiento del lenguaje natural con Python Natural language processing with Python. (U. d. Facultad de Ingeniería Electromecánica, Ed.) Procesamiento del lenguaje natural, 4(13), 24-28.
Chen, T., & Guestrin, C. (2016, March). XGBoost: A scalable tree boosting system. arXiv preprint arXiv:1603.02754.
DANE - Clasificación Internacional Uniforme de Ocupaciones (CIUO). (2023). Dane.gov.co. https://www.dane.gov.co/index.php/sistema-estadistico-nacional-sen/normas-y-estandares/nomenclaturas-y-clasificaciones/clasificaciones/clasificacion-internacional-uniforme-de-ocupaciones-ciuo
DANE - Trabajo infantil. (2023). Dane.gov.co. https://www.dane.gov.co/index.php/estadisticas-por-tema/mercado-laboral/trabajo-infantil
DANE. (2023). Mercado laboral según sexo. https://www.dane.gov.co/files/operaciones/GEIH/mercado-laboral-segun-sexo/bol-GEIH-MLS-abr2023.pdf
de, D. (2023, March 10). Gran Encuesta Integrada de Hogares - GEIH - 2023. - Colombia. Dane.gov.co. https://microdatos.dane.gov.co/index.php/catalog/782
de, M. (2019). Páginas - Ciclo de Vida. Minsalud.gov.co. https://www.minsalud.gov.co/proteccionsocial/Paginas/cicloVida.aspx
De-Arteaga, M., Romanov, A., Wallach, H., Chayes, J., Borgs, C., Chouldechova, A., ... & Kalai, A. T. (2019, January). Bias in bios: A case study of semantic representation bias in a high-stakes setting. In proceedings of the Conference on Fairness, Accountability, and Transparency (pp. 120-128).
Decision Tree - GeeksforGeeks. (2017). Retrieved 1 December 2022, from https://www.geeksforgeeks.org/decision-tree/
Dev, S., & Phillips, J. (2019, April). Attenuating bias in word vectors. In The 22nd international conference on artificial intelligence and statistics (pp. 879-887). PMLR.
Dobrev, D. (2004). A definition of artificial intelligence. arXiv preprint arXiv:1210.1568.
El Joudi, N. A., Othmani, M. B., Bourzgui, F., Mahboub, O., & Lazaar, M. (2022). Review of the role of Artificial Intelligence in dentistry: Current applications and trends. Procedia Computer Science, 210, 173-180.
Escobar Macías, A. D. (2019). Análisis del uso del procesamiento del lenguaje natural y su aplicación en sistemas conversacionales (Doctoral dissertation, Universidad de Guayaquil. Facultad de Ciencias Matemáticas y Físicas. Carrera de Ingeniería en Networking y Telecomunicaciones).
Farzana, S. M. (2021). Enhancing Term-Based Document Retrieval by Word Embedding and Transformer Models (Doctoral dissertation, Rheinische Friedrich-Wilhelms-Universität Bonn).
Giró, J. L. M. (2020). El masculino inclusivo en español. Revista Española de Lingüística, 50(1), 35-64.
Gopchandani, S. (2019). Using Word Embeddings to Explore the Language of Depression on Twitter. The University of Vermont and State Agricultural College.
Harrell, F. E. (2019). Regression Modeling Strategies. 3ra ed. Springer.
Hernández, M., & Gómez, J. (31 de Julio de 2013). Aplicaciones de procesamiento de lenguaje natural. Revista Politécnica, 32(1), 87-96.
Hyndman, R. J., & Athanasopoulos, G. (2018). Forecasting: Principles and practice. 3ra ed. OTexts.
Kamkarhaghighi, M. (2019). Global-local word embedding for text classification (Doctoral dissertation, University of Ontario Institute of Technology (Canada)).
Keiff, M. R. (2021). Quantifying Social Biases in News Articles with Word Embeddings.
Kirasich, K., Smith, T., & Sadler, B. (2018). Random forest vs logistic regression: binary classification for heterogeneous datasets. SMU Data Science Review, 1(3), 9.
Kowsari, K., Jafari Meimandi, K., Heidarysafa, M., Mendu, S., Barnes, L., & Brown, D. (2019). Text classification algorithms: A survey. Information, 10(4), 150.
K2 Analytics. (2020, June 19). Missing Value Imputation using KNN | K2 Analytics. K2 Analytics. https://www.k2analytics.co.in/missing-value-imputation-using-knn/
Li, J., Gao, F., Lin, S., Guo, M., Li, Y., Liu, H., ... & Wen, Q. (2023). Quantum k-fold cross-validation for nearest neighbor classification algorithm. Physica A: Statistical Mechanics and its Applications, 611, 128435.
Linear Regression in Machine learning - Javatpoint. (2021). Www.javatpoint.com. https://www.javatpoint.com/linear-regression-in-machine-learning
Linear Regression in Machine learning. (2018, September 13). GeeksforGeeks; GeeksforGeeks. https://www.geeksforgeeks.org/ml-linear-regression/
López, D. I. P., & Delgado, C. C. (2015). El género desde las y los estudiantes de licenciatura: un análisis a través de las representaciones sociales. JÓVENES EN LA CIENCIA, 1(2), 1052-1056.
machinelearningparatodos. (2018). Tipos de aprendizaje automático. Recuperado de: https://machinelearningparatodos.com/tipos-de-aprendizaje-automatico/
Martínez, C. D., García, P. D., & Sustaeta, P. N. (2020). Sesgos de género ocultos en los macrodatos y revelados mediante redes neurales. Reis: Revista Española de Investigaciones Sociológicas, (172), 41-59.
May, C., Wang, A., Bordia, S., Bowman, S. R., & Rudinger, R. (2019). On measuring social biases in sentence encoders. arXiv preprint arXiv:1903.10561.
ML | Linear Discriminant Analysis - GeeksforGeeks. (2019). Retrieved 1 December 2022, from https://www.geeksforgeeks.org/ml-linear-discriminant-analysis/
Nadeem, M., Bethke, A., & Reddy, S. (2020). Stereoset: Measuring stereotypical bias in pretrained language models. arXiv preprint arXiv:2004.09456.
National Academies of Sciences, Engineering, and Medicine. (2019). The Risk of Bias in Artificial Intelligence. Washington, DC: The National Academies Press.
Objetivos y metas de desarrollo sostenible - Desarrollo Sostenible. (2022). Retrieved 18 July 2022, from https://www.un.org/sustainabledevelopment/es/objetivos-de-desarrollo-sostenible/
Observatorio Laboral y Ocupacional Colombiano. (2021). Sena.edu.co. https://observatorio.sena.edu.co/clasificacion/cno
Ogunfowora, O., & Najjaran, H. (2023). Reinforcement and deep reinforcement learning-based solutions for machine maintenance planning, scheduling policies, and optimization. Journal of Manufacturing Systems, 70, 244-263.
Papakyriakopoulos, O., Hegelich, S., Serrano, J. C. M., & Marco, F. (2020, January). Bias in word embeddings. In Proceedings of the 2020 conference on fairness, accountability, and transparency (pp. 446-457).
Pennington, J., Socher, R., & Manning, C. D. (2014, October). Glove: Global vectors for word representation. In Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP) (pp. 1532-1543).
Pessach, D., & Shmueli, E. (2020). Algorithmic fairness. arXiv preprint arXiv:2001.09784.
Python Imputation using the KNNimputer. (2020, August 10). GeeksforGeeks; GeeksforGeeks. https://www.geeksforgeeks.org/python-imputation-using-the-knnimputer/
Ravali, R. S., Vijayakumar, T. M., Lakshmi, K. S., Mavaluru, D., Reddy, L. V., Retnadhas, M., & Thomas, T. (2022). A systematic review of artificial intelligence for pediatric physiotherapy practice: past, present, and future. Neuroscience Informatics, 2(4), 100045.
Roca, L. V. (1992). El género gramatical en español, reflejo del dominio masculino. Política y cultura, (1), 219-229.
Rodrigo, J. (2022). Análisis de Componentes Principales (Principal Component Analysis, PCA) y t-SNE. Retrieved 1 December 2022, from https://www.cienciadedatos.net/documentos/35_principal_component_analysis
Rouhiainen, L. (2018). Inteligencia artificial. Madrid: Alienta Editorial.
Sandoval Serrano, L. J. (2018). Algoritmos de aprendizaje automático para análisis y predicción de datos. Revista Tecnológica; no. 11.
Sheykhmousa, M., Mahdianpari, M., Ghanbari, H., Mohammadimanesh, F., Ghamisi, P., & Homayouni, S. (2020). Support vector machine versus random forest for remote sensing image classification: A meta-analysis and systematic review. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 13, 6308-6325.
sklearn.linear_model.LinearRegression. (2023). Scikit-Learn. https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html
sklearn.tree.DecisionTreeRegressor. (2023). Scikit-Learn. https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeRegressor.html
Sosnick, M. A. (2017). Exploring Fairness and Bias in Algorithms and Word Embedding (Doctoral dissertation, University of Pennsylvania).
Sutton, A. J. (2021). Concepts in Word Embeddings: Theory and Applications (Doctoral dissertation, University of Bristol).
Sutton, R. S., & Barto, A. G. (2018). Reinforcement learning: An introduction (3rd ed.). MIT Press.
Sweeney, L. (2013). Discrimination in online ad delivery. Communications of the ACM, 56(5), 44-54.
Tan, Y. C., & Celis, L. E. (2019). Assessing social and intersectional biases in contextualized word representations. Advances in Neural Information Processing Systems, 32.
Team, N. (2022, April 7). Unsupervised Learning Types, Algorithms and Applications - Nixus. Nixus. https://nixustechnologies.com/unsupervised-machine-learning/
Top 10 Dimensionality Reduction Techniques For Machine Learning | upGrad blog. (2020). Retrieved 1 December 2022, from https://www.upgrad.com/blog/top-dimensionality-reduction-techniques-for-machine-learning/
Umadevi, S., & Marseline, K. J. (2017, July). A survey on data mining classification algorithms. In 2017 International Conference on Signal Processing and Communication (ICSPC) (pp. 264-268). IEEE.
Various ways to evaluate a machine learning models performance. (2019). Retrieved 1 December 2022, from https://towardsdatascience.com/various-ways-to-evaluate-a-machine-learning-models-performance-230449055f15
Vásquez, A. C., Quispe, J., & Huayna, A. (Julio - Diciembre de 2009). Procesamiento de lenguaje natural. Revista de investigación de Sistemas e Informática, 6(2), 45-54.
What is a Machine Learning Pipeline (2022). Available at: https://valohai.com/machine-learning-pipeline/ (Accessed: 1 December 2022).
Word Embeddings in NLP - GeeksforGeeks. (2020). Retrieved 1 December 2022, from https://www.geeksforgeeks.org/word-embeddings-in-nlp/
Zhao, J., Wang, T., Yatskar, M., Ordonez, V., & Chang, K. W. (2017). Men also like shopping: Reducing gender bias amplification using corpus-level constraints. arXiv preprint arXiv:1707.09457.
Zou, M., Jiang, W. G., Qin, Q. H., Liu, Y. C., & Li, M. L. (2022). Optimized XGBoost model with small dataset for predicting relative density of Ti-6Al-4V parts manufactured by selective laser melting. Materials, 15(15), 5298.
dc.rights.coar.fl_str_mv http://purl.org/coar/access_right/c_abf2
dc.rights.uri.*.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/2.5/co/
dc.rights.local.spa.fl_str_mv Abierto (Texto Completo)
dc.rights.creativecommons.*.fl_str_mv Atribución-NoComercial-SinDerivadas 2.5 Colombia
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-nd/2.5/co/
Abierto (Texto Completo)
Atribución-NoComercial-SinDerivadas 2.5 Colombia
http://purl.org/coar/access_right/c_abf2
dc.format.mimetype.spa.fl_str_mv application/pdf
dc.coverage.spatial.spa.fl_str_mv Córdoba (Colombia)
dc.coverage.campus.spa.fl_str_mv UNAB Campus Bucaramanga
dc.publisher.grantor.spa.fl_str_mv Universidad Autónoma de Bucaramanga UNAB
dc.publisher.faculty.spa.fl_str_mv Facultad Ingeniería
dc.publisher.program.spa.fl_str_mv Maestría en Gestión, Aplicación y Desarrollo de Software
institution Universidad Autónoma de Bucaramanga - UNAB
bitstream.url.fl_str_mv https://repository.unab.edu.co/bitstream/20.500.12749/22679/1/2023_Tesis_Deimer_Ramos.pdf
https://repository.unab.edu.co/bitstream/20.500.12749/22679/6/Licencia.pdf
https://repository.unab.edu.co/bitstream/20.500.12749/22679/5/license.txt
https://repository.unab.edu.co/bitstream/20.500.12749/22679/7/2023_Tesis_Deimer_Ramos.pdf.jpg
https://repository.unab.edu.co/bitstream/20.500.12749/22679/8/Licencia.pdf.jpg
bitstream.checksum.fl_str_mv acb0894bc6471890836d8f63e22861a1
41712173a75e119daa119fff2e51d0ee
3755c0cfdb77e29f2b9125d7a45dd316
87106b1b8f288cb74e35ea7bc4552604
2b440844d2dd077ff43fee66824027f7
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio Institucional | Universidad Autónoma de Bucaramanga - UNAB
repository.mail.fl_str_mv repositorio@unab.edu.co
_version_ 1814277880045109248
spelling Calderón, Lilianaae7d6b08-b89e-43e7-ac42-4ddf069017abRosado Gomez, Alveiro0337fe02-38b3-4c48-ad58-16f85bd42664Ramos Cuello, Deimer De Jesúse3eb121a-031c-460a-aaec-b66e61a7e1dbRosado Gomez, Alveiro [0001350760]Rosado Gomez, Alveiro [es&oi=ao]Rosado Gomez, Alveiro [0000-0003-2932-3383]Córdoba (Colombia)UNAB Campus Bucaramanga2023-11-09T01:20:46Z2023-11-09T01:20:46Z2023-11-08http://hdl.handle.net/20.500.12749/22679instname:Universidad Autónoma de Bucaramanga - UNABreponame:Repositorio Institucional UNABrepourl:https://repository.unab.edu.coLa selección/reclutamiento de personal idóneo para la ocupación de un puesto de trabajo, asignación salarial u otras prácticas en el ámbito laboral colombiano por medio de técnicas de inteligencia artificial, puede incurrir en discriminación (por características intrínsecas de las personas) y perpetuación de este flagelo social. En este trabajo se realizó un análisis de las tendencias desproporcionadas y/o favorecimientos hacia un género que podrían ser generados por modelos de aprendizaje automático (inteligencia artificial) sustentados en la clasificación única de ocupaciones en Colombia (CUOC). Se utilizaron los modelos pre-entrenados de incrustaciones de palabras: Word2Vec, FastText, Glove y Wiki2Vec. Se desarrollaron modelos de clasificación y regresión, como: RandomForest, DecisionTree, XgBoost, LightGBM y otros.Universidad de CórdobaINTRODUCCIÓN..............................................................................................................11 1 MARCO TEORICO........................................................................................................19 1.1 INTELIGENCIA ARTIFICIAL..................................................................................... 19 1.1.1 APRENDIZAJE AUTOMÁTICO.............................................................................. 20 1.1.2 PROCESAMIENTO DEL LENGUAJE NATURAL:................................................. 24 1.1.2.1 INCRUSTACIONES DE PALABRAS (WORD EMBEDDINGS)........................... 25 1.1.2.1.1 MODELOS PRE-ENTRENADOS PARA INCRUSTACIONES DE PALABRAS: ........................................................................................................................................ 28 1.1.2.2 AL INTERIOR DE UN MODELO DE MACHINE LEARNING:.............................. 32 1.1.3 ALGORITMOS DE CLASIFICACIÓN EN MACHINE LEARNING: ......................... 37 1.1.3.1 EVALUACIÓN DE MODELOS (ALGORITMOS DE CLASIFICACIÓN)............... 40 1.1.4 ALGORITMOS DE REGRESIÓN EN MACHINE LEARNING:................................ 41 1.1.4.1 EVALUACIÓN DE MODELOS (ALGORITMOS DE REGRESIÓN) ..................... 43 1.1.5 SESGOS EN LAS INCRUSTACIONES DE PALABRAS: ...................................... 44 1.2 PALABRAS CON TENDENCIA MASCULINA, FEMENINA Y NEUTRAS: ............... 47 2 MÉTODO DE INVESTIGACIÓN ....................................................................................49 2.1 CLASIFICACIÓN ÚNICA DE OCUPACIONES DE COLOMBIA: .............................. 49 2.2 SELECCIÓN DE MODELOS PRE-ENTRENADOS DE INCRUSTACIONES DE PALABRAS: ................................................................................................................... 50 2.3 TRATAMIENTO A LAS OCUPACIONES PARA IDENTIFICAR TENDENCIAS HACIA UN SEXO: ....................................................................................................................... 50 3 RESULTADOS DE LA INVESTIGACIÓN......................................................................53 3.1 IDENTIFICACIÓN DE LAS OCUPACIONES SESGADAS CONTEMPLADAS EN LA CUOC A TRAVÉS DE MODELOS PRE-ENTRENADOS DE INCRUSTACIONES DE PALABRAS..................................................................................................................... 53 3.2 INTEGRACIÓN DE DATASETS OBTENIDOS DE EVALUAR LA CUOC EN LOS MODELOS PRE-ENTRENADOS:................................................................................... 57 3.3 CONSOLIDACIÓN CONJUNTO DE DATOS DE LA FUERZA LABORAL E INTEGRACIÓN CON LAS OCUPACIONES SESGADAS............................................... 59 3.4 ANÁLISIS DEL CONJUNTO DE DATOS INTEGRADO:........................................... 64 3.5 SELECCIÓN DE ALGORITMOS (CLASIFICACIÓN Y REGRESIÓN) Y OPTIMIZACIÓN DE LA DATA PARA ENTRENAR MODELOS DE PREDICTIVOS:...... 76 3.6 ENTRENAMIENTO DE LOS MODELOS PREDICTIVOS (CLASIFICACIÓN Y REGRESIÓN).................................................................................................................. 79 3.7 ANALISIS DE LA CANTIDAD DE MUJERES VS HOMBRES POR CADA INTERVALO DE SALARIO (1-5) (INTERVALOS APLICADOS PARA LOS MODELOS DE CLASIFICACIÓN): .................................................................................................... 83 3.8 ANALISIS DE METRICAS DE PRECISIÓN PARA LOS MODELOS DE CLASIFICACIÓN SEPARADAS POR SEXO:................................................................. 84 3.9 ANÁLISIS DE LA CURVA ROC PARA LAS PREDICCIONES DE RANGOS SALARIALES ENTRE HOMBRES Y MUJERES: ........................................................... 86 3.10 ELI5 - RANDOMFOREST........................................................................................ 89 3.11 ANALISIS DE METRICAS DE PRECISIÓN PARA LOS MODELOS DE REGRESIÓN SEPARADAS POR SEXO: ....................................................................... 90 3.12 ANÁLISIS DE CORRELACIÓN ENTRE LAS PREDICCIONES Y DATOS REALES: ........................................................................................................................................ 91 3.13 ELI5 – XGBoost...................................................................................................... 92 3.14 ANALISIS DE POSIBLES OCUPACIONES CON DISCRIMINACIÓN A TRAVÉS DE UN MODELO PRE-ENTRENADO SESGADO:............................................................... 93 3.14.1 IMPLEMENTACIÓN FASTTEXT A LOS MODELOS DE RANDOMFOREST Y XGBOOST....................................................................................................................... 93 3.14.2 ANALISIS DE LAS PREDICCIONES DE LOS MODELOS UTILIZANDO VECTORES DE PALABRAS VS OCUPACIONES EN LINEA BASE ............................. 95 4 CONCLUSIONES........................................................................................................103 5 RECOMENDACIONES Y TRABAJOS FUTUROS......................................................105 REFERENCIAS..............................................................................................................106MaestríaThe selection/recruitment of suitable personnel for the occupation of a job, salary assignment or other practices in the Colombian workplace through artificial intelligence techniques, may incur discrimination (due to intrinsic characteristics of the people) and perpetuation of this. social scourge. In this work, an analysis was carried out of the disproportionate tendencies and/or favors towards a gender that could be generated by machine learning models (artificial intelligence) supported by the unique classification of occupations in Colombia (CUOC). The pre-trained word embedding models were used: Word2Vec, FastText, Glove and Wiki2Vec. Classification and regression models were developed, such as: RandomForest, DecisionTree, XgBoost, LightGBM and others.Modalidad Virtualapplication/pdfspahttp://creativecommons.org/licenses/by-nc-nd/2.5/co/Abierto (Texto Completo)Atribución-NoComercial-SinDerivadas 2.5 Colombiahttp://purl.org/coar/access_right/c_abf2Análisis de la discriminación de género que existe en la clasificación única de ocupaciones para Colombia utilizando procesamiento del lenguaje naturalAnalysis of the gender discrimination that exists in the unique classification of occupations for Colombia using natural language processingMagíster en Gestión, Aplicación y Desarrollo de SoftwareUniversidad Autónoma de Bucaramanga UNABFacultad IngenieríaMaestría en Gestión, Aplicación y Desarrollo de Softwareinfo:eu-repo/semantics/masterThesisTesisinfo:eu-repo/semantics/acceptedVersionhttp://purl.org/redcol/resource_type/TMSystems engineerSoftware developmentDiscriminationNatural language processingWords embeddingsOccupationProgramming languageElectronic data processingComputational linguisticsMachine languagesDesarrollo de SoftwareIngeniería de sistemasLenguaje de programaciónProcesamiento electrónico de datosLingüística computacionalLenguajes de máquinaDiscriminaciónOcupacionesProcesamiento del lenguaje naturalIncrustaciones de palabrasAgudelo-Giraldo, O. A., León Molina, J. E., Prieto Salas, M. A., Alarcón-Peña, A., &Jiménez-Triana, J. C. (2018). La). La pregunta por el método: derecho y metodología de la investigación.Bogotáinvestigación. :UniversidadBogotá: Universidad Católica de ColombiaAlvarez, J. E., & Bast, H. (2017). A review of word embedding and document similarity algorithms applied to academic text. Bachelor thesis.Benítez, R., Escudero, G., Kanaan, S., & Rodó, D. M. (2014). Inteligencia artificial avanzada. Editorial UOC.Brazdil, P., y Jorge, A. (Eds.). (2001). Progress in Artificial Intelligence: Knowledge Extraction, Multi-agent Systems,Logic Programming, and Constraint Solving. Berlin, Heidelberg: Springer Berlin Heidelberg. https://doi.org/10.1007/3-540-45329-6Caliskan, A., Bryson, J. J., & Narayanan, A. (2017). Semantics derived automatically from language corpora contain human-like biases. Science, 356(6334), 183-186.Camacho, M., & Navarro, E. (Marzo de 2020). Procesamiento del lenguaje natural con Python Natural language processing with Python. (U. d. Facultad de Ingeniería Electromecánica, Ed.) Procesamiento del lenguaje natural, 4(13), 24-28.Chen, T., & Guestrin, C. (2016, March). XGBoost: A scalable tree boosting system. arXiv preprint arXiv:1603.02754.DANE - Clasificación Internacional Uniforme de Ocupaciones (CIUO). (2023). Dane.gov.co. https://www.dane.gov.co/index.php/sistema-estadistico-nacional-sen/normas-y-estandares/nomenclaturas-y-clasificaciones/clasificaciones/clasificacion-internacional-uniforme-de-ocupaciones-ciuoDANE - Trabajo infantil. (2023). Dane.gov.co. https://www.dane.gov.co/index.php/estadisticas-por-tema/mercado-laboral/trabajo-infantilDANE. (2023). Mercado laboral según sexo. https://www.dane.gov.co/files/operaciones/GEIH/mercado-laboral-segun-sexo/bol-GEIH-MLS-abr2023.pdfde, D. (2023, March 10). Gran Encuesta Integrada de Hogares - GEIH - 2023. - Colombia. Dane.gov.co. https://microdatos.dane.gov.co/index.php/catalog/782de, M. (2019). Páginas - Ciclo de Vida. Minsalud.gov.co. https://www.minsalud.gov.co/proteccionsocial/Paginas/cicloVida.aspxDe-Arteaga, M., Romanov, A., Wallach, H., Chayes, J., Borgs, C., Chouldechova, A., ... & Kalai, A. T. (2019, January). Bias in bios: A case study of semantic representation bias in a high-stakes setting. In proceedings of the Conference on Fairness, Accountability, and Transparency (pp. 120-128).Decision Tree - GeeksforGeeks. (2017). Retrieved 1 December 2022, from https://www.geeksforgeeks.org/decision-tree/Dev, S., & Phillips, J. (2019, April). Attenuating bias in word vectors. In The 22nd international conference on artificial intelligence and statistics (pp. 879-887). PMLR.Dobrev, D. (2004). A definition of artificial intelligence. arXiv preprint arXiv:1210.1568.El Joudi, N. A., Othmani, M. B., Bourzgui, F., Mahboub, O., & Lazaar, M. (2022). Review of the role of Artificial Intelligence in dentistry: Current applications and trends. Procedia Computer Science, 210, 173-180.Escobar Macías, A. D. (2019). Análisis del uso del procesamiento del lenguaje natural y su aplicación en sistemas conversacionales (Doctoral dissertation, Universidad de Guayaquil. Facultad de Ciencias Matemáticas y Físicas. Carrera de Ingeniería en Networking y Telecomunicaciones).Farzana, S. M. (2021). Enhancing Term-Based Document Retrieval by Word Embedding and Transformer Models (Doctoral dissertation, Rheinische Friedrich-Wilhelms-Universität Bonn).Giró, J. L. M. (2020). El masculino inclusivo en español. Revista Española de Lingüística, 50(1), 35-64.Gopchandani, S. (2019). Using Word Embeddings to Explore the Language of Depression on Twitter. The University of Vermont and State Agricultural College.Harrell, F. E. (2019). Regression Modeling Strategies. 3ra ed. Springer.Hernández, M., & Gómez, J. (31 de Julio de 2013). Aplicaciones de procesamiento de lenguaje natural. Revista Politécnica, 32(1), 87-96.Hyndman, R. J., & Athanasopoulos, G. (2018). Forecasting: Principles and practice. 3ra ed. OTexts.Kamkarhaghighi, M. (2019). Global-local word embedding for text classification (Doctoral dissertation, University of Ontario Institute of Technology (Canada)).Keiff, M. R. (2021). Quantifying Social Biases in News Articles with Word Embeddings.Kirasich, K., Smith, T., & Sadler, B. (2018). Random forest vs logistic regression: binary classification for heterogeneous datasets. SMU Data Science Review, 1(3), 9.Kowsari, K., Jafari Meimandi, K., Heidarysafa, M., Mendu, S., Barnes, L., & Brown, D. (2019). Text classification algorithms: A survey. Information, 10(4), 150.K2 Analytics. (2020, June 19). Missing Value Imputation using KNN | K2 Analytics. K2 Analytics. https://www.k2analytics.co.in/missing-value-imputation-using-knn/Li, J., Gao, F., Lin, S., Guo, M., Li, Y., Liu, H., ... & Wen, Q. (2023). Quantum k-fold cross-validation for nearest neighbor classification algorithm. Physica A: Statistical Mechanics and its Applications, 611, 128435.Linear Regression in Machine learning - Javatpoint. (2021). Www.javatpoint.com. https://www.javatpoint.com/linear-regression-in-machine-learningLinear Regression in Machine learning. (2018, September 13). GeeksforGeeks; GeeksforGeeks. https://www.geeksforgeeks.org/ml-linear-regression/López, D. I. P., & Delgado, C. C. (2015). El género desde las y los estudiantes de licenciatura: un análisis a través de las representaciones sociales. JÓVENES EN LA CIENCIA, 1(2), 1052-1056.machinelearningparatodos. (2018). Tipos de aprendizaje automático. Recuperado de: https://machinelearningparatodos.com/tipos-de-aprendizaje-automatico/Martínez, C. D., García, P. D., & Sustaeta, P. N. (2020). Sesgos de género ocultos en los macrodatos y revelados mediante redes neurales. Reis: Revista Española de Investigaciones Sociológicas, (172), 41-59.May, C., Wang, A., Bordia, S., Bowman, S. R., & Rudinger, R. (2019). On measuring social biases in sentence encoders. arXiv preprint arXiv:1903.10561.ML | Linear Discriminant Analysis - GeeksforGeeks. (2019). Retrieved 1 December 2022, from https://www.geeksforgeeks.org/ml-linear-discriminant-analysis/Nadeem, M., Bethke, A., & Reddy, S. (2020). Stereoset: Measuring stereotypical bias in pretrained language models. arXiv preprint arXiv:2004.09456.National Academies of Sciences, Engineering, and Medicine. (2019). The Risk of Bias in Artificial Intelligence. Washington, DC: The National Academies Press.Objetivos y metas de desarrollo sostenible - Desarrollo Sostenible. (2022). Retrieved 18 July 2022, from https://www.un.org/sustainabledevelopment/es/objetivos-de-desarrollo-sostenible/Observatorio Laboral y Ocupacional Colombiano. (2021). Sena.edu.co. https://observatorio.sena.edu.co/clasificacion/cnoOgunfowora, O., & Najjaran, H. (2023). Reinforcement and deep reinforcement learning-based solutions for machine maintenance planning, scheduling policies, and optimization. Journal of Manufacturing Systems, 70, 244-263.Papakyriakopoulos, O., Hegelich, S., Serrano, J. C. M., & Marco, F. (2020, January). Bias in word embeddings. In Proceedings of the 2020 conference on fairness, accountability, and transparency (pp. 446-457).Pennington, J., Socher, R., & Manning, C. D. (2014, October). Glove: Global vectors for word representation. In Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP) (pp. 1532-1543).Pessach, D., & Shmueli, E. (2020). Algorithmic fairness. arXiv preprint arXiv:2001.09784.Python Imputation using the KNNimputer. (2020, August 10). GeeksforGeeks; GeeksforGeeks. https://www.geeksforgeeks.org/python-imputation-using-the-knnimputer/Ravali, R. S., Vijayakumar, T. M., Lakshmi, K. S., Mavaluru, D., Reddy, L. V., Retnadhas, M., & Thomas, T. (2022). A systematic review of artificial intelligence for pediatric physiotherapy practice: past, present, and future. Neuroscience Informatics, 2(4), 100045.Roca, L. V. (1992). El género gramatical en español, reflejo del dominio masculino. Política y cultura, (1), 219-229.Rodrigo, J. (2022). Análisis de Componentes Principales (Principal Component Analysis, PCA) y t-SNE. Retrieved 1 December 2022, from https://www.cienciadedatos.net/documentos/35_principal_component_analysisRouhiainen, L. (2018). Inteligencia artificial. Madrid: Alienta Editorial.Sandoval Serrano, L. J. (2018). Algoritmos de aprendizaje automático para análisis y predicción de datos. Revista Tecnológica; no. 11.Sheykhmousa, M., Mahdianpari, M., Ghanbari, H., Mohammadimanesh, F., Ghamisi, P., & Homayouni, S. (2020). Support vector machine versus random forest for remote sensing image classification: A meta-analysis and systematic review. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 13, 6308-6325.sklearn.linear_model.LinearRegression. (2023). Scikit-Learn. https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.htmlsklearn.tree.DecisionTreeRegressor. (2023). Scikit-Learn. https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeRegressor.htmlSosnick, M. A. (2017). Exploring Fairness and Bias in Algorithms and Word Embedding (Doctoral dissertation, University of Pennsylvania).Sutton, A. J. (2021). Concepts in Word Embeddings: Theory and Applications (Doctoral dissertation, University of Bristol).Sutton, R. S., & Barto, A. G. (2018). Reinforcement learning: An introduction (3rd ed.). MIT Press.Sweeney, L. (2013). Discrimination in online ad delivery. Communications of the ACM, 56(5), 44-54.Tan, Y. C., & Celis, L. E. (2019). Assessing social and intersectional biases in contextualized word representations. Advances in Neural Information Processing Systems, 32.Team, N. (2022, April 7). Unsupervised Learning Types, Algorithms and Applications - Nixus. Nixus. https://nixustechnologies.com/unsupervised-machine-learning/Top 10 Dimensionality Reduction Techniques For Machine Learning | upGrad blog. (2020). Retrieved 1 December 2022, from https://www.upgrad.com/blog/top-dimensionality-reduction-techniques-for-machine-learning/Umadevi, S., & Marseline, K. J. (2017, July). A survey on data mining classification algorithms. In 2017 International Conference on Signal Processing and Communication (ICSPC) (pp. 264-268). IEEE.Various ways to evaluate a machine learning models performance. (2019). Retrieved 1 December 2022, from https://towardsdatascience.com/various-ways-to-evaluate-a-machine-learning-models-performance-230449055f15Vásquez, A. C., Quispe, J., & Huayna, A. (Julio - Diciembre de 2009). Procesamiento de lenguaje natural. Revista de investigación de Sistemas e Informática, 6(2), 45-54.What is a Machine Learning Pipeline (2022). Available at: https://valohai.com/machine-learning-pipeline/ (Accessed: 1 December 2022).Word Embeddings in NLP - GeeksforGeeks. (2020). Retrieved 1 December 2022, from https://www.geeksforgeeks.org/word-embeddings-in-nlp/Zhao, J., Wang, T., Yatskar, M., Ordonez, V., & Chang, K. W. (2017). Men also like shopping: Reducing gender bias amplification using corpus-level constraints. arXiv preprint arXiv:1707.09457.Zou, M., Jiang, W. G., Qin, Q. H., Liu, Y. C., & Li, M. L. (2022). Optimized XGBoost model with small dataset for predicting relative density of Ti-6Al-4V parts manufactured by selective laser melting. Materials, 15(15), 5298.ORIGINAL2023_Tesis_Deimer_Ramos.pdf2023_Tesis_Deimer_Ramos.pdfTesisapplication/pdf3679465https://repository.unab.edu.co/bitstream/20.500.12749/22679/1/2023_Tesis_Deimer_Ramos.pdfacb0894bc6471890836d8f63e22861a1MD51open accessLicencia.pdfLicencia.pdfLicenciaapplication/pdf464116https://repository.unab.edu.co/bitstream/20.500.12749/22679/6/Licencia.pdf41712173a75e119daa119fff2e51d0eeMD56open accessLICENSElicense.txtlicense.txttext/plain; charset=utf-8829https://repository.unab.edu.co/bitstream/20.500.12749/22679/5/license.txt3755c0cfdb77e29f2b9125d7a45dd316MD55open accessTHUMBNAIL2023_Tesis_Deimer_Ramos.pdf.jpg2023_Tesis_Deimer_Ramos.pdf.jpgIM Thumbnailimage/jpeg5494https://repository.unab.edu.co/bitstream/20.500.12749/22679/7/2023_Tesis_Deimer_Ramos.pdf.jpg87106b1b8f288cb74e35ea7bc4552604MD57open accessLicencia.pdf.jpgLicencia.pdf.jpgIM Thumbnailimage/jpeg6124https://repository.unab.edu.co/bitstream/20.500.12749/22679/8/Licencia.pdf.jpg2b440844d2dd077ff43fee66824027f7MD58open access20.500.12749/22679oai:repository.unab.edu.co:20.500.12749/226792024-10-18 14:59:57.315open accessRepositorio Institucional | Universidad Autónoma de Bucaramanga - UNABrepositorio@unab.edu.coRUwoTE9TKSBBVVRPUihFUyksIG1hbmlmaWVzdGEobWFuaWZlc3RhbW9zKSBxdWUgbGEgb2JyYSBvYmpldG8gZGUgbGEgcHJlc2VudGUgYXV0b3JpemFjacOzbiBlcyBvcmlnaW5hbCB5IGxhIHJlYWxpesOzIHNpbiB2aW9sYXIgbyB1c3VycGFyIGRlcmVjaG9zIGRlIGF1dG9yIGRlIHRlcmNlcm9zLCBwb3IgbG8gdGFudG8sIGxhIG9icmEgZXMgZGUgZXhjbHVzaXZhIGF1dG9yw61hIHkgdGllbmUgbGEgdGl0dWxhcmlkYWQgc29icmUgbGEgbWlzbWEuCgpFbiBjYXNvIGRlIHByZXNlbnRhcnNlIGN1YWxxdWllciByZWNsYW1hY2nDs24gbyBhY2Npw7NuIHBvciBwYXJ0ZSBkZSB1biB0ZXJjZXJvIGVuIGN1YW50byBhIGxvcyBkZXJlY2hvcyBkZSBhdXRvciBzb2JyZSBsYSBvYnJhIGVuIGN1ZXN0acOzbi4gRWwgQVVUT1IgYXN1bWlyw6EgdG9kYSBsYSByZXNwb25zYWJpbGlkYWQsIHkgc2FsZHLDoSBlbiBkZWZlbnNhIGRlIGxvcyBkZXJlY2hvcyBhcXXDrSBhdXRvcml6YWRvcywgcGFyYSB0b2RvcyBsb3MgZWZlY3RvcyBsYSBVTkFCIGFjdMO6YSBjb21vIHVuIHRlcmNlcm8gZGUgYnVlbmEgZmUuCgpFbCBBVVRPUiBhdXRvcml6YSBhIGxhIFVuaXZlcnNpZGFkIEF1dMOzbm9tYSBkZSBCdWNhcmFtYW5nYSBwYXJhIHF1ZSBlbiBsb3MgdMOpcm1pbm9zIGVzdGFibGVjaWRvcyBlbiBsYSBMZXkgMjMgZGUgMTk4MiwgTGV5IDQ0IGRlIDE5OTMsIERlY2lzacOzbiBBbmRpbmEgMzUxIGRlIDE5OTMgeSBkZW3DoXMgbm9ybWFzIGdlbmVyYWxlcyBzb2JyZSBsYSBtYXRlcmlhLCB1dGlsaWNlIGxhIG9icmEgb2JqZXRvIGRlIGxhIHByZXNlbnRlIGF1dG9yaXphY2nDs24uCg==