Aprendizaje por refuerzo para control de sistemas dinámicos

El aprendizaje por refuerzo o RL – Reinforcement Learning, por sus siglas en inglés, es una rama de la inteligencia artificial que trata sobre un agente que recibe información de un entorno o ambiente en forma de estados y acciones, además de que actúa en el entorno, lo que resulta en un nuevo estad...

Full description

Autores:
Díaz Latorre, Andrés Steven
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
2019
Institución:
Universidad Autónoma de Occidente
Repositorio:
RED: Repositorio Educativo Digital UAO
Idioma:
spa
OAI Identifier:
oai:red.uao.edu.co:10614/11694
Acceso en línea:
http://red.uao.edu.co//handle/10614/11694
Palabra clave:
Ingenería Mecatrónica
Algoritmos (Computadores)
Aprendizaje automático (Inteligencia artificial)
Reinforcement learning
Computer algorithms
Machine learning
Rights
openAccess
License
Derechos Reservados - Universidad Autónoma de Occidente
id REPOUAO2_87b6ce31fb22b2c7810ab21ffc158222
oai_identifier_str oai:red.uao.edu.co:10614/11694
network_acronym_str REPOUAO2
network_name_str RED: Repositorio Educativo Digital UAO
repository_id_str
dc.title.spa.fl_str_mv Aprendizaje por refuerzo para control de sistemas dinámicos
title Aprendizaje por refuerzo para control de sistemas dinámicos
spellingShingle Aprendizaje por refuerzo para control de sistemas dinámicos
Ingenería Mecatrónica
Algoritmos (Computadores)
Aprendizaje automático (Inteligencia artificial)
Reinforcement learning
Computer algorithms
Machine learning
title_short Aprendizaje por refuerzo para control de sistemas dinámicos
title_full Aprendizaje por refuerzo para control de sistemas dinámicos
title_fullStr Aprendizaje por refuerzo para control de sistemas dinámicos
title_full_unstemmed Aprendizaje por refuerzo para control de sistemas dinámicos
title_sort Aprendizaje por refuerzo para control de sistemas dinámicos
dc.creator.fl_str_mv Díaz Latorre, Andrés Steven
dc.contributor.advisor.none.fl_str_mv López Sotelo, Jesús Alfonso
dc.contributor.author.spa.fl_str_mv Díaz Latorre, Andrés Steven
dc.subject.spa.fl_str_mv Ingenería Mecatrónica
Algoritmos (Computadores)
Aprendizaje automático (Inteligencia artificial)
topic Ingenería Mecatrónica
Algoritmos (Computadores)
Aprendizaje automático (Inteligencia artificial)
Reinforcement learning
Computer algorithms
Machine learning
dc.subject.eng.fl_str_mv Reinforcement learning
Computer algorithms
Machine learning
description El aprendizaje por refuerzo o RL – Reinforcement Learning, por sus siglas en inglés, es una rama de la inteligencia artificial que trata sobre un agente que recibe información de un entorno o ambiente en forma de estados y acciones, además de que actúa en el entorno, lo que resulta en un nuevo estado, el agente recibe una recompensa como pago al tomar una acción. Esta recompensa se le asigna al nuevo estado, por lo cual, a medida que el agente tome acciones la recompensa tendrá un valor tanto positivo como negativo. En el proyecto se desarrolló una serie de algoritmos en lenguaje Python para el control de sistemas dinámicos clásicos, utilizando las librerías Gym y Tensorflow. Se utilizó Python porque es uno de los lenguajes de programación más utilizados al ser de código abierto, orientado a objetos y por la facilidad de instalación de paquetes. Los métodos de aprendizaje que se utilizaron en los algoritmos están basados en Q-Learning, Deep Q-Learning y actor – crítico, más conocido como A2C. Además se presenta a modo de guía y con fines educativos el proceso paso a paso para la creación de entornos propios con la librería de Gym además de cómo implementar estos algoritmos en nuestros propios entornos dado a que gran parte de esta temática se encuentra disponible en inglés, incluso en algunas universidades el RL lo suelen resumir con Q-Learning, pero esta rama de inteligencia es más grande
publishDate 2019
dc.date.accessioned.spa.fl_str_mv 2019-12-11T17:08:14Z
dc.date.available.spa.fl_str_mv 2019-12-11T17:08:14Z
dc.date.issued.spa.fl_str_mv 2019-09-30
dc.type.spa.fl_str_mv Trabajo de grado - Pregrado
dc.type.coarversion.fl_str_mv http://purl.org/coar/version/c_970fb48d4fbd8a85
dc.type.coar.spa.fl_str_mv http://purl.org/coar/resource_type/c_7a1f
dc.type.content.spa.fl_str_mv Text
dc.type.driver.spa.fl_str_mv info:eu-repo/semantics/bachelorThesis
dc.type.redcol.spa.fl_str_mv https://purl.org/redcol/resource_type/TP
dc.type.version.spa.fl_str_mv info:eu-repo/semantics/publishedVersion
format http://purl.org/coar/resource_type/c_7a1f
status_str publishedVersion
dc.identifier.uri.spa.fl_str_mv http://red.uao.edu.co//handle/10614/11694
url http://red.uao.edu.co//handle/10614/11694
dc.language.iso.spa.fl_str_mv spa
language spa
dc.rights.spa.fl_str_mv Derechos Reservados - Universidad Autónoma de Occidente
dc.rights.coar.fl_str_mv http://purl.org/coar/access_right/c_abf2
dc.rights.uri.spa.fl_str_mv https://creativecommons.org/licenses/by-nc/4.0/
dc.rights.accessrights.spa.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.creativecommons.spa.fl_str_mv Atribución-NoComercial 4.0 Internacional (CC BY-NC 4.0)
rights_invalid_str_mv Derechos Reservados - Universidad Autónoma de Occidente
https://creativecommons.org/licenses/by-nc/4.0/
Atribución-NoComercial 4.0 Internacional (CC BY-NC 4.0)
http://purl.org/coar/access_right/c_abf2
eu_rights_str_mv openAccess
dc.format.spa.fl_str_mv application/pdf
dc.format.extent.spa.fl_str_mv 82 páginas
dc.coverage.spatial.spa.fl_str_mv Universidad Autónoma de Occidente. Calle 25 115-85. Km 2 vía Cali-Jamundí
dc.publisher.spa.fl_str_mv Universidad Autónoma de Occidente
dc.publisher.program.spa.fl_str_mv Ingeniería Mecatrónica
dc.publisher.department.spa.fl_str_mv Departamento de Automática y Electrónica
dc.publisher.faculty.spa.fl_str_mv Facultad de Ingeniería
dc.source.spa.fl_str_mv instname:Universidad Autónoma de Occidente
reponame:Repositorio Institucional UAO
instname_str Universidad Autónoma de Occidente
institution Universidad Autónoma de Occidente
reponame_str Repositorio Institucional UAO
collection Repositorio Institucional UAO
dc.source.bibliographiccitation.spa.fl_str_mv Barto, A. G. Sutton, R. S. Anderson, C. W. (2013). Neuronlike Adaptive Elements That Can Solve Difficult Learning Control Problems. (IEEE Transactions on Systems, Man, and Cybernetics). Recuperado de http://www.derongliu.org/adp/adp-cdrom/Barto1983.pdf Boada, M. J. Boada, B. López, V. (2015). Algoritmo de aprendizaje por refuerzo continúo para el control de un sistema de suspensión semi – activa. Revista: Iberoamericana de Ingeniería Mecánica. Chandra, A. (2018). Perceptron: The Artificial Neuron (An Essential Upgrade To The McCulloch-Pitts Neuron). Recuperado de https://towardsdatascience.com/perceptron-the-artificial-neuron-4d8c70d5cc8d Cuaya, G. (2015). Procesos de decisión de Markov aplicados en la locomoción de robots hexápodos. (Tesis de maestria) Tonantzintla. México. Recuperado de https://inaoe.repositorioinstitucional.mx/jspui/bitstream/1009/588/1/CuayaSG.pdf Covantec. (2014). Ventajas y desventajas. Recuperado de https://entrenamiento-python-basico.readthedocs.io/es/latest/leccion1/ventajas_desventajas.html#ventajas García, E. O. (2015). Aprendizaje por refuerzo mediante transferencia de conocimiento cualitativo. Recuperado de http://ccc.inaoep.mx/~jemc/blog/wp-content/uploads/2016/09/tesisOmar.pdf Github. (s.f). Openai/gym. Recuperado de: https://github.com/openai/gym/wiki/CartPole-v0 Gym.openai. (s.f). Getting Started with Gym. Recuperado de https://gym.openai.com/docs/ Gym. (s.f). CartPole-v0. Recuperado de https://gym.openai.com/envs/Cart-v0/ Gym. (s.f). MountainCar-v0. Recuperado de https://gym.openai.com/envs/MountainCar-v0/ Gym. (s.f). Pendulum-v0. Recuperado de https://gym.openai.com/envs/Pendulum-v0/ Hassabis, D. (2016). AlphaGo: using machine learning to master the ancient game of Go. Recuperado de https://blog.google/technology/ai/alphago-machine-learning-game-go/ Jaderberg, M. Wojciech, M. Czarnecki. Dunning, I. Marris, L. Lever, G. Garcia, A, Beattie, C. Rabinowitz, C. Morcos, A. Ruderman, A. Sonnerat, N. Green, T. Deason, L. Leibo, J. Silver, D. Hassabis, D. Kavukcuoglu, K. Graepel, T. (2019). Human-level performance in 3D multiplayer games with population-based reinforcement learning. Recuperado de https://science.sciencemag.org/content/364/6443/859 Lopez, R. (2015). Q-learning: Aprendizaje automático por refuerzo. Recuperado de https://rubenlopezg.wordpress.com/2015/05/12/q-learning-aprendizaje-automatico-por-refuerzo/ McCulloch, W. Pitts, W .(1943). A logical calculus of the the ideas immanet in nervous activity. Bulletin of mathematical biology, Vol 52, Recuperado de: https://link.springer.com/article/10.1007%2FBF02459570 McDonal, C. (2018). Solving multiarmed bandits: A comparison of epsilon-greedy and Thompson sampling. Recuperado de https://towardsdatascience.com/solving-multiarmed-bandits-a-comparison-of-epsilon-greedy-and-thompson-sampling-d97167ca9a50 Mnih, V. Kavukcuoglu, K. Silver, D. Graves, A. Antonoglou, L. Wierstra, D. Riedmiller, M. (2013). Playing Atari with Deep Reinforcement Learning. Recuperado de https://arxiv.org/pdf/1312.5602.pdf Moor, A. W. (1990). Efficient memory-based Learning for robot control. Recuperado de: https://www.cl.cam.ac.uk/techreports/UCAM-CL-TR-209.pdf Moor, J. (2003). The Turing test: The elusive standard of artificial intelligence. EE.UU: Science & Business Media. Nieto, J. (2018). La Inteligencia Artificial del Huawei P20 Pro, ¿cómo te afecta en el día a día? Recuperado de https://andro4all.com/huawei_ia/como-funciona-inteligencia-artificial-huawei-p20-pro Nº 171: IA Grafos - Aprendizaje por Refuerzo 03 (Activo, Q-Learning). (2017)Recuperado de https://www.youtube.com/watch?v=ZoRMKs8XLSA Ortego, D. (2017).Qué es Tensorflow? Recuperado de https://openwebinars.net/blog/que-es-tensorflow/ Pastor, J. (2017). AlphaGo aplasta al mejor jugador del mundo de Go, la inteligencia artificial es imbatible. Recuperado de https://www.xataka.com/robotica-e-ia/alphago-aplasta-al-mejor-jugador-del-mundo-de-go-la-inteligencia-artificial-es-imbatible Printista, A. M, Errecalde. M. L, Montoya, C. I. (2000). Una implementación paralela del algoritmo Q-Learning basada en un esquema de comunicación con caché. San Luis, Argentina. Recuperado de http://sedici.unlp.edu.ar/bitstream/handle/10915/23363/Documento_completo.pdf?sequence=1 RSTOPUR. Disponible en: https://rstopup.com/es-posible-la-creacion-de-un-nuevo-gimnasio-medio-ambiente-en-openai.html Ruiz, S. Hernández, B. (2014). Procesos de decisión de Markovy microescenarios para navegacióny evasión de colisiones para multitudes. Research in Computing Science. Recuperado de http://www.rcs.cic.ipn.mx/rcs/2014_74/Procesos%20de%20decision%20de%20Markov%20y%20microescenarios%20para%20navegacion%20y%20evasion%20de%20colisiones.pdf Simonini, T. (2018). An intro to Advantage Actor Critic methods: let’s play Sonic the Hedgehog!. Recuperado de https://www.freecodecamp.org/news/an-intro-to-advantage-actor-critic-methods-lets-play-sonic-the-hedgehog-86d6240171d/ Siembro, G. C. (2007) Procesos de decisión de Markov aplicados a la locomoción de robots hexápodos. Recuperado de http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/588 Sutton, R. S. Barto, A. G. (1998). Reinforcement learning: An introduction. Sutton, R. S. Barto, A. G. (1998). Introduction to reinforcement learning. Londres, Inglaterra. Recuperado de http://incompleteideas.net/book/bookdraft2017nov5.pdf Tensorflow. (s.f). An end-to-end open source machine learning platform. Recuperado de https://www.tensorflow.org/ Parra, S. (2013). La emergencia del buen juego en un tablero de damas de 1950 https://www.xatakaciencia.com/computacion/la-emergencia-del-buen-juego-en-un-tablero-de-damas-de-1950 Yoon, C. (s.f). Understanding Actor Critic Methods and A2C. Recuperado de https://towardsdatascience.com/understanding-actor-critic-methods-931b97b6df3f
bitstream.url.fl_str_mv https://red.uao.edu.co/bitstreams/b335845a-8d86-4dff-bf7c-047ca8003ff0/download
https://red.uao.edu.co/bitstreams/7fb18ad9-8195-426c-9f35-9d65727d23fd/download
https://red.uao.edu.co/bitstreams/247377d7-999a-435d-81c8-a6766d4895b0/download
https://red.uao.edu.co/bitstreams/d2800b78-f3c6-42fb-9f2b-a7d147aee90e/download
https://red.uao.edu.co/bitstreams/5c026552-d44e-4d20-ad2e-93d0b609c33b/download
https://red.uao.edu.co/bitstreams/ee77e170-c38c-4493-b0b0-6aaa3843f748/download
https://red.uao.edu.co/bitstreams/fa088a10-6092-43d4-99d4-38dae045d33a/download
https://red.uao.edu.co/bitstreams/a2f89ba6-bea5-476b-86b4-579c9e915fbf/download
bitstream.checksum.fl_str_mv e15c216e396a39565308583dd193dad8
0275431bea02a36310fa33fb53439d79
265b4a0b408c5315408ac9a46252181d
f102bc0f0d671166831c9da3f28ffb29
24013099e9e6abb1575dc6ce0855efd5
20b5ba22b1117f71589c7318baa2c560
1dd15e46060833fc21e67bdc1399c1e0
0035dc77fd0fb5f1c6e19b9d41553bc2
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio Digital Universidad Autonoma de Occidente
repository.mail.fl_str_mv repositorio@uao.edu.co
_version_ 1814260141166428160
spelling López Sotelo, Jesús Alfonsovirtual::2926-1Díaz Latorre, Andrés Steven6541ac0bfa99ea41dbc299861d479232-1Ingeniero MecatrónicoUniversidad Autónoma de Occidente. Calle 25 115-85. Km 2 vía Cali-Jamundí2019-12-11T17:08:14Z2019-12-11T17:08:14Z2019-09-30http://red.uao.edu.co//handle/10614/11694El aprendizaje por refuerzo o RL – Reinforcement Learning, por sus siglas en inglés, es una rama de la inteligencia artificial que trata sobre un agente que recibe información de un entorno o ambiente en forma de estados y acciones, además de que actúa en el entorno, lo que resulta en un nuevo estado, el agente recibe una recompensa como pago al tomar una acción. Esta recompensa se le asigna al nuevo estado, por lo cual, a medida que el agente tome acciones la recompensa tendrá un valor tanto positivo como negativo. En el proyecto se desarrolló una serie de algoritmos en lenguaje Python para el control de sistemas dinámicos clásicos, utilizando las librerías Gym y Tensorflow. Se utilizó Python porque es uno de los lenguajes de programación más utilizados al ser de código abierto, orientado a objetos y por la facilidad de instalación de paquetes. Los métodos de aprendizaje que se utilizaron en los algoritmos están basados en Q-Learning, Deep Q-Learning y actor – crítico, más conocido como A2C. Además se presenta a modo de guía y con fines educativos el proceso paso a paso para la creación de entornos propios con la librería de Gym además de cómo implementar estos algoritmos en nuestros propios entornos dado a que gran parte de esta temática se encuentra disponible en inglés, incluso en algunas universidades el RL lo suelen resumir con Q-Learning, pero esta rama de inteligencia es más grandeReinforcement Learning or RL - by its initials in English, is a branch of artificial intelligence that deals with an agent that receives information from an environment or environment in the form of states and actions, in addition to acting in the environment, resulting in a new state, the agent receives a reward as payment when taking an action. This reward is assigned to the new state, therefore, as the agent takes action the reward will have both positive and negative value. In the project a series of algorithms in Python language were used for the control of classic dynamic systems, using the Gym and Tensorflow libraries. Python was used because it is one of the most used programming languages ​​because it is open source, object oriented and because of the ease of installing packages. The learning methods used in the algorithms are available in Q-Learning, Deep Q-Learning and actor - critic, better known as A2C. In addition, a guide mode is presented and for educational purposes the step-by-step process for the creation of our own environments with the gym library as well as how to implement these algorithms in our own environments since much of this theme is available in English, even in some universities the RL usually summarize it with Q-Learning, but this branch of intelligence is largerProyecto de grado (Ingeniero Mecatrónico)-- Universidad Autónoma de Occidente, 2019PregradoIngeniero(a) Mecatrónico(a)application/pdf82 páginasspaUniversidad Autónoma de OccidenteIngeniería MecatrónicaDepartamento de Automática y ElectrónicaFacultad de IngenieríaDerechos Reservados - Universidad Autónoma de Occidentehttps://creativecommons.org/licenses/by-nc/4.0/info:eu-repo/semantics/openAccessAtribución-NoComercial 4.0 Internacional (CC BY-NC 4.0)http://purl.org/coar/access_right/c_abf2instname:Universidad Autónoma de Occidentereponame:Repositorio Institucional UAOBarto, A. G. Sutton, R. S. Anderson, C. W. (2013). Neuronlike Adaptive Elements That Can Solve Difficult Learning Control Problems. (IEEE Transactions on Systems, Man, and Cybernetics). Recuperado de http://www.derongliu.org/adp/adp-cdrom/Barto1983.pdf Boada, M. J. Boada, B. López, V. (2015). Algoritmo de aprendizaje por refuerzo continúo para el control de un sistema de suspensión semi – activa. Revista: Iberoamericana de Ingeniería Mecánica. Chandra, A. (2018). Perceptron: The Artificial Neuron (An Essential Upgrade To The McCulloch-Pitts Neuron). Recuperado de https://towardsdatascience.com/perceptron-the-artificial-neuron-4d8c70d5cc8d Cuaya, G. (2015). Procesos de decisión de Markov aplicados en la locomoción de robots hexápodos. (Tesis de maestria) Tonantzintla. México. Recuperado de https://inaoe.repositorioinstitucional.mx/jspui/bitstream/1009/588/1/CuayaSG.pdf Covantec. (2014). Ventajas y desventajas. Recuperado de https://entrenamiento-python-basico.readthedocs.io/es/latest/leccion1/ventajas_desventajas.html#ventajas García, E. O. (2015). Aprendizaje por refuerzo mediante transferencia de conocimiento cualitativo. Recuperado de http://ccc.inaoep.mx/~jemc/blog/wp-content/uploads/2016/09/tesisOmar.pdf Github. (s.f). Openai/gym. Recuperado de: https://github.com/openai/gym/wiki/CartPole-v0 Gym.openai. (s.f). Getting Started with Gym. Recuperado de https://gym.openai.com/docs/ Gym. (s.f). CartPole-v0. Recuperado de https://gym.openai.com/envs/Cart-v0/ Gym. (s.f). MountainCar-v0. Recuperado de https://gym.openai.com/envs/MountainCar-v0/ Gym. (s.f). Pendulum-v0. Recuperado de https://gym.openai.com/envs/Pendulum-v0/ Hassabis, D. (2016). AlphaGo: using machine learning to master the ancient game of Go. Recuperado de https://blog.google/technology/ai/alphago-machine-learning-game-go/ Jaderberg, M. Wojciech, M. Czarnecki. Dunning, I. Marris, L. Lever, G. Garcia, A, Beattie, C. Rabinowitz, C. Morcos, A. Ruderman, A. Sonnerat, N. Green, T. Deason, L. Leibo, J. Silver, D. Hassabis, D. Kavukcuoglu, K. Graepel, T. (2019). Human-level performance in 3D multiplayer games with population-based reinforcement learning. Recuperado de https://science.sciencemag.org/content/364/6443/859 Lopez, R. (2015). Q-learning: Aprendizaje automático por refuerzo. Recuperado de https://rubenlopezg.wordpress.com/2015/05/12/q-learning-aprendizaje-automatico-por-refuerzo/ McCulloch, W. Pitts, W .(1943). A logical calculus of the the ideas immanet in nervous activity. Bulletin of mathematical biology, Vol 52, Recuperado de: https://link.springer.com/article/10.1007%2FBF02459570 McDonal, C. (2018). Solving multiarmed bandits: A comparison of epsilon-greedy and Thompson sampling. Recuperado de https://towardsdatascience.com/solving-multiarmed-bandits-a-comparison-of-epsilon-greedy-and-thompson-sampling-d97167ca9a50 Mnih, V. Kavukcuoglu, K. Silver, D. Graves, A. Antonoglou, L. Wierstra, D. Riedmiller, M. (2013). Playing Atari with Deep Reinforcement Learning. Recuperado de https://arxiv.org/pdf/1312.5602.pdf Moor, A. W. (1990). Efficient memory-based Learning for robot control. Recuperado de: https://www.cl.cam.ac.uk/techreports/UCAM-CL-TR-209.pdf Moor, J. (2003). The Turing test: The elusive standard of artificial intelligence. EE.UU: Science & Business Media. Nieto, J. (2018). La Inteligencia Artificial del Huawei P20 Pro, ¿cómo te afecta en el día a día? Recuperado de https://andro4all.com/huawei_ia/como-funciona-inteligencia-artificial-huawei-p20-pro Nº 171: IA Grafos - Aprendizaje por Refuerzo 03 (Activo, Q-Learning). (2017)Recuperado de https://www.youtube.com/watch?v=ZoRMKs8XLSA Ortego, D. (2017).Qué es Tensorflow? Recuperado de https://openwebinars.net/blog/que-es-tensorflow/ Pastor, J. (2017). AlphaGo aplasta al mejor jugador del mundo de Go, la inteligencia artificial es imbatible. Recuperado de https://www.xataka.com/robotica-e-ia/alphago-aplasta-al-mejor-jugador-del-mundo-de-go-la-inteligencia-artificial-es-imbatible Printista, A. M, Errecalde. M. L, Montoya, C. I. (2000). Una implementación paralela del algoritmo Q-Learning basada en un esquema de comunicación con caché. San Luis, Argentina. Recuperado de http://sedici.unlp.edu.ar/bitstream/handle/10915/23363/Documento_completo.pdf?sequence=1 RSTOPUR. Disponible en: https://rstopup.com/es-posible-la-creacion-de-un-nuevo-gimnasio-medio-ambiente-en-openai.html Ruiz, S. Hernández, B. (2014). Procesos de decisión de Markovy microescenarios para navegacióny evasión de colisiones para multitudes. Research in Computing Science. Recuperado de http://www.rcs.cic.ipn.mx/rcs/2014_74/Procesos%20de%20decision%20de%20Markov%20y%20microescenarios%20para%20navegacion%20y%20evasion%20de%20colisiones.pdf Simonini, T. (2018). An intro to Advantage Actor Critic methods: let’s play Sonic the Hedgehog!. Recuperado de https://www.freecodecamp.org/news/an-intro-to-advantage-actor-critic-methods-lets-play-sonic-the-hedgehog-86d6240171d/ Siembro, G. C. (2007) Procesos de decisión de Markov aplicados a la locomoción de robots hexápodos. Recuperado de http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/588 Sutton, R. S. Barto, A. G. (1998). Reinforcement learning: An introduction. Sutton, R. S. Barto, A. G. (1998). Introduction to reinforcement learning. Londres, Inglaterra. Recuperado de http://incompleteideas.net/book/bookdraft2017nov5.pdf Tensorflow. (s.f). An end-to-end open source machine learning platform. Recuperado de https://www.tensorflow.org/ Parra, S. (2013). La emergencia del buen juego en un tablero de damas de 1950 https://www.xatakaciencia.com/computacion/la-emergencia-del-buen-juego-en-un-tablero-de-damas-de-1950 Yoon, C. (s.f). Understanding Actor Critic Methods and A2C. Recuperado de https://towardsdatascience.com/understanding-actor-critic-methods-931b97b6df3fIngenería MecatrónicaAlgoritmos (Computadores)Aprendizaje automático (Inteligencia artificial)Reinforcement learningComputer algorithmsMachine learningAprendizaje por refuerzo para control de sistemas dinámicosTrabajo de grado - Pregradohttp://purl.org/coar/resource_type/c_7a1fTextinfo:eu-repo/semantics/bachelorThesishttps://purl.org/redcol/resource_type/TPinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/version/c_970fb48d4fbd8a85Publicationhttps://scholar.google.com.au/citations?user=7PIjh_MAAAAJ&hl=envirtual::2926-10000-0002-9731-8458virtual::2926-1https://scienti.minciencias.gov.co/cvlac/visualizador/generarCurriculoCv.do?cod_rh=0000249106virtual::2926-1fc227fb1-22ec-47f0-afe7-521c61fddd32virtual::2926-1fc227fb1-22ec-47f0-afe7-521c61fddd32virtual::2926-1TEXTT08883.pdf.txtT08883.pdf.txtExtracted texttext/plain106446https://red.uao.edu.co/bitstreams/b335845a-8d86-4dff-bf7c-047ca8003ff0/downloade15c216e396a39565308583dd193dad8MD57TA8883.pdf.txtTA8883.pdf.txtExtracted texttext/plain4159https://red.uao.edu.co/bitstreams/7fb18ad9-8195-426c-9f35-9d65727d23fd/download0275431bea02a36310fa33fb53439d79MD59THUMBNAILT08883.pdf.jpgT08883.pdf.jpgGenerated Thumbnailimage/jpeg6016https://red.uao.edu.co/bitstreams/247377d7-999a-435d-81c8-a6766d4895b0/download265b4a0b408c5315408ac9a46252181dMD58TA8883.pdf.jpgTA8883.pdf.jpgGenerated Thumbnailimage/jpeg13060https://red.uao.edu.co/bitstreams/d2800b78-f3c6-42fb-9f2b-a7d147aee90e/downloadf102bc0f0d671166831c9da3f28ffb29MD510CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8914https://red.uao.edu.co/bitstreams/5c026552-d44e-4d20-ad2e-93d0b609c33b/download24013099e9e6abb1575dc6ce0855efd5MD53LICENSElicense.txtlicense.txttext/plain; charset=utf-81665https://red.uao.edu.co/bitstreams/ee77e170-c38c-4493-b0b0-6aaa3843f748/download20b5ba22b1117f71589c7318baa2c560MD54ORIGINALT08883.pdfT08883.pdfapplication/pdf1257383https://red.uao.edu.co/bitstreams/fa088a10-6092-43d4-99d4-38dae045d33a/download1dd15e46060833fc21e67bdc1399c1e0MD55TA8883.pdfTA8883.pdfapplication/pdf97817https://red.uao.edu.co/bitstreams/a2f89ba6-bea5-476b-86b4-579c9e915fbf/download0035dc77fd0fb5f1c6e19b9d41553bc2MD5610614/11694oai:red.uao.edu.co:10614/116942024-03-07 16:47:40.801https://creativecommons.org/licenses/by-nc/4.0/Derechos Reservados - Universidad Autónoma de Occidenteopen.accesshttps://red.uao.edu.coRepositorio Digital Universidad Autonoma de Occidenterepositorio@uao.edu.coRUwgQVVUT1IgYXV0b3JpemEgYSBsYSBVbml2ZXJzaWRhZCBBdXTDs25vbWEgZGUgT2NjaWRlbnRlLCBkZSBmb3JtYSBpbmRlZmluaWRhLCBwYXJhIHF1ZSBlbiBsb3MgdMOpcm1pbm9zIGVzdGFibGVjaWRvcyBlbiBsYSBMZXkgMjMgZGUgMTk4MiwgbGEgTGV5IDQ0IGRlIDE5OTMsIGxhIERlY2lzacOzbiBhbmRpbmEgMzUxIGRlIDE5OTMsIGVsIERlY3JldG8gNDYwIGRlIDE5OTUgeSBkZW3DoXMgbGV5ZXMgeSBqdXJpc3BydWRlbmNpYSB2aWdlbnRlIGFsIHJlc3BlY3RvLCBoYWdhIHB1YmxpY2FjacOzbiBkZSBlc3RlIGNvbiBmaW5lcyBlZHVjYXRpdm9zLiBQQVJBR1JBRk86IEVzdGEgYXV0b3JpemFjacOzbiBhZGVtw6FzIGRlIHNlciB2w6FsaWRhIHBhcmEgbGFzIGZhY3VsdGFkZXMgeSBkZXJlY2hvcyBkZSB1c28gc29icmUgbGEgb2JyYSBlbiBmb3JtYXRvIG8gc29wb3J0ZSBtYXRlcmlhbCwgdGFtYmnDqW4gcGFyYSBmb3JtYXRvIGRpZ2l0YWwsIGVsZWN0csOzbmljbywgdmlydHVhbCwgcGFyYSB1c29zIGVuIHJlZCwgSW50ZXJuZXQsIGV4dHJhbmV0LCBpbnRyYW5ldCwgYmlibGlvdGVjYSBkaWdpdGFsIHkgZGVtw6FzIHBhcmEgY3VhbHF1aWVyIGZvcm1hdG8gY29ub2NpZG8gbyBwb3IgY29ub2Nlci4gRUwgQVVUT1IsIGV4cHJlc2EgcXVlIGVsIGRvY3VtZW50byAodHJhYmFqbyBkZSBncmFkbywgcGFzYW50w61hLCBjYXNvcyBvIHRlc2lzKSBvYmpldG8gZGUgbGEgcHJlc2VudGUgYXV0b3JpemFjacOzbiBlcyBvcmlnaW5hbCB5IGxhIGVsYWJvcsOzIHNpbiBxdWVicmFudGFyIG5pIHN1cGxhbnRhciBsb3MgZGVyZWNob3MgZGUgYXV0b3IgZGUgdGVyY2Vyb3MsIHkgZGUgdGFsIGZvcm1hLCBlbCBkb2N1bWVudG8gKHRyYWJham8gZGUgZ3JhZG8sIHBhc2FudMOtYSwgY2Fzb3MgbyB0ZXNpcykgZXMgZGUgc3UgZXhjbHVzaXZhIGF1dG9yw61hIHkgdGllbmUgbGEgdGl0dWxhcmlkYWQgc29icmUgw6lzdGUuIFBBUkFHUkFGTzogZW4gY2FzbyBkZSBwcmVzZW50YXJzZSBhbGd1bmEgcmVjbGFtYWNpw7NuIG8gYWNjacOzbiBwb3IgcGFydGUgZGUgdW4gdGVyY2VybywgcmVmZXJlbnRlIGEgbG9zIGRlcmVjaG9zIGRlIGF1dG9yIHNvYnJlIGVsIGRvY3VtZW50byAoVHJhYmFqbyBkZSBncmFkbywgUGFzYW50w61hLCBjYXNvcyBvIHRlc2lzKSBlbiBjdWVzdGnDs24sIEVMIEFVVE9SLCBhc3VtaXLDoSBsYSByZXNwb25zYWJpbGlkYWQgdG90YWwsIHkgc2FsZHLDoSBlbiBkZWZlbnNhIGRlIGxvcyBkZXJlY2hvcyBhcXXDrSBhdXRvcml6YWRvczsgcGFyYSB0b2RvcyBsb3MgZWZlY3RvcywgbGEgVW5pdmVyc2lkYWQgIEF1dMOzbm9tYSBkZSBPY2NpZGVudGUgYWN0w7phIGNvbW8gdW4gdGVyY2VybyBkZSBidWVuYSBmZS4gVG9kYSBwZXJzb25hIHF1ZSBjb25zdWx0ZSB5YSBzZWEgZW4gbGEgYmlibGlvdGVjYSBvIGVuIG1lZGlvIGVsZWN0csOzbmljbyBwb2Ryw6EgY29waWFyIGFwYXJ0ZXMgZGVsIHRleHRvIGNpdGFuZG8gc2llbXByZSBsYSBmdWVudGUsIGVzIGRlY2lyIGVsIHTDrXR1bG8gZGVsIHRyYWJham8geSBlbCBhdXRvci4gRXN0YSBhdXRvcml6YWNpw7NuIG5vIGltcGxpY2EgcmVudW5jaWEgYSBsYSBmYWN1bHRhZCBxdWUgdGllbmUgRUwgQVVUT1IgZGUgcHVibGljYXIgdG90YWwgbyBwYXJjaWFsbWVudGUgbGEgb2JyYS4K