Aprendizaje por refuerzo para control de sistemas dinámicos
El aprendizaje por refuerzo o RL – Reinforcement Learning, por sus siglas en inglés, es una rama de la inteligencia artificial que trata sobre un agente que recibe información de un entorno o ambiente en forma de estados y acciones, además de que actúa en el entorno, lo que resulta en un nuevo estad...
- Autores:
-
Díaz Latorre, Andrés Steven
- Tipo de recurso:
- Trabajo de grado de pregrado
- Fecha de publicación:
- 2019
- Institución:
- Universidad Autónoma de Occidente
- Repositorio:
- RED: Repositorio Educativo Digital UAO
- Idioma:
- spa
- OAI Identifier:
- oai:red.uao.edu.co:10614/11694
- Acceso en línea:
- http://red.uao.edu.co//handle/10614/11694
- Palabra clave:
- Ingenería Mecatrónica
Algoritmos (Computadores)
Aprendizaje automático (Inteligencia artificial)
Reinforcement learning
Computer algorithms
Machine learning
- Rights
- openAccess
- License
- Derechos Reservados - Universidad Autónoma de Occidente
id |
REPOUAO2_87b6ce31fb22b2c7810ab21ffc158222 |
---|---|
oai_identifier_str |
oai:red.uao.edu.co:10614/11694 |
network_acronym_str |
REPOUAO2 |
network_name_str |
RED: Repositorio Educativo Digital UAO |
repository_id_str |
|
dc.title.spa.fl_str_mv |
Aprendizaje por refuerzo para control de sistemas dinámicos |
title |
Aprendizaje por refuerzo para control de sistemas dinámicos |
spellingShingle |
Aprendizaje por refuerzo para control de sistemas dinámicos Ingenería Mecatrónica Algoritmos (Computadores) Aprendizaje automático (Inteligencia artificial) Reinforcement learning Computer algorithms Machine learning |
title_short |
Aprendizaje por refuerzo para control de sistemas dinámicos |
title_full |
Aprendizaje por refuerzo para control de sistemas dinámicos |
title_fullStr |
Aprendizaje por refuerzo para control de sistemas dinámicos |
title_full_unstemmed |
Aprendizaje por refuerzo para control de sistemas dinámicos |
title_sort |
Aprendizaje por refuerzo para control de sistemas dinámicos |
dc.creator.fl_str_mv |
Díaz Latorre, Andrés Steven |
dc.contributor.advisor.none.fl_str_mv |
López Sotelo, Jesús Alfonso |
dc.contributor.author.spa.fl_str_mv |
Díaz Latorre, Andrés Steven |
dc.subject.spa.fl_str_mv |
Ingenería Mecatrónica Algoritmos (Computadores) Aprendizaje automático (Inteligencia artificial) |
topic |
Ingenería Mecatrónica Algoritmos (Computadores) Aprendizaje automático (Inteligencia artificial) Reinforcement learning Computer algorithms Machine learning |
dc.subject.eng.fl_str_mv |
Reinforcement learning Computer algorithms Machine learning |
description |
El aprendizaje por refuerzo o RL – Reinforcement Learning, por sus siglas en inglés, es una rama de la inteligencia artificial que trata sobre un agente que recibe información de un entorno o ambiente en forma de estados y acciones, además de que actúa en el entorno, lo que resulta en un nuevo estado, el agente recibe una recompensa como pago al tomar una acción. Esta recompensa se le asigna al nuevo estado, por lo cual, a medida que el agente tome acciones la recompensa tendrá un valor tanto positivo como negativo. En el proyecto se desarrolló una serie de algoritmos en lenguaje Python para el control de sistemas dinámicos clásicos, utilizando las librerías Gym y Tensorflow. Se utilizó Python porque es uno de los lenguajes de programación más utilizados al ser de código abierto, orientado a objetos y por la facilidad de instalación de paquetes. Los métodos de aprendizaje que se utilizaron en los algoritmos están basados en Q-Learning, Deep Q-Learning y actor – crítico, más conocido como A2C. Además se presenta a modo de guía y con fines educativos el proceso paso a paso para la creación de entornos propios con la librería de Gym además de cómo implementar estos algoritmos en nuestros propios entornos dado a que gran parte de esta temática se encuentra disponible en inglés, incluso en algunas universidades el RL lo suelen resumir con Q-Learning, pero esta rama de inteligencia es más grande |
publishDate |
2019 |
dc.date.accessioned.spa.fl_str_mv |
2019-12-11T17:08:14Z |
dc.date.available.spa.fl_str_mv |
2019-12-11T17:08:14Z |
dc.date.issued.spa.fl_str_mv |
2019-09-30 |
dc.type.spa.fl_str_mv |
Trabajo de grado - Pregrado |
dc.type.coarversion.fl_str_mv |
http://purl.org/coar/version/c_970fb48d4fbd8a85 |
dc.type.coar.spa.fl_str_mv |
http://purl.org/coar/resource_type/c_7a1f |
dc.type.content.spa.fl_str_mv |
Text |
dc.type.driver.spa.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
dc.type.redcol.spa.fl_str_mv |
https://purl.org/redcol/resource_type/TP |
dc.type.version.spa.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
format |
http://purl.org/coar/resource_type/c_7a1f |
status_str |
publishedVersion |
dc.identifier.uri.spa.fl_str_mv |
http://red.uao.edu.co//handle/10614/11694 |
url |
http://red.uao.edu.co//handle/10614/11694 |
dc.language.iso.spa.fl_str_mv |
spa |
language |
spa |
dc.rights.spa.fl_str_mv |
Derechos Reservados - Universidad Autónoma de Occidente |
dc.rights.coar.fl_str_mv |
http://purl.org/coar/access_right/c_abf2 |
dc.rights.uri.spa.fl_str_mv |
https://creativecommons.org/licenses/by-nc/4.0/ |
dc.rights.accessrights.spa.fl_str_mv |
info:eu-repo/semantics/openAccess |
dc.rights.creativecommons.spa.fl_str_mv |
Atribución-NoComercial 4.0 Internacional (CC BY-NC 4.0) |
rights_invalid_str_mv |
Derechos Reservados - Universidad Autónoma de Occidente https://creativecommons.org/licenses/by-nc/4.0/ Atribución-NoComercial 4.0 Internacional (CC BY-NC 4.0) http://purl.org/coar/access_right/c_abf2 |
eu_rights_str_mv |
openAccess |
dc.format.spa.fl_str_mv |
application/pdf |
dc.format.extent.spa.fl_str_mv |
82 páginas |
dc.coverage.spatial.spa.fl_str_mv |
Universidad Autónoma de Occidente. Calle 25 115-85. Km 2 vía Cali-Jamundí |
dc.publisher.spa.fl_str_mv |
Universidad Autónoma de Occidente |
dc.publisher.program.spa.fl_str_mv |
Ingeniería Mecatrónica |
dc.publisher.department.spa.fl_str_mv |
Departamento de Automática y Electrónica |
dc.publisher.faculty.spa.fl_str_mv |
Facultad de Ingeniería |
dc.source.spa.fl_str_mv |
instname:Universidad Autónoma de Occidente reponame:Repositorio Institucional UAO |
instname_str |
Universidad Autónoma de Occidente |
institution |
Universidad Autónoma de Occidente |
reponame_str |
Repositorio Institucional UAO |
collection |
Repositorio Institucional UAO |
dc.source.bibliographiccitation.spa.fl_str_mv |
Barto, A. G. Sutton, R. S. Anderson, C. W. (2013). Neuronlike Adaptive Elements That Can Solve Difficult Learning Control Problems. (IEEE Transactions on Systems, Man, and Cybernetics). Recuperado de http://www.derongliu.org/adp/adp-cdrom/Barto1983.pdf Boada, M. J. Boada, B. López, V. (2015). Algoritmo de aprendizaje por refuerzo continúo para el control de un sistema de suspensión semi – activa. Revista: Iberoamericana de Ingeniería Mecánica. Chandra, A. (2018). Perceptron: The Artificial Neuron (An Essential Upgrade To The McCulloch-Pitts Neuron). Recuperado de https://towardsdatascience.com/perceptron-the-artificial-neuron-4d8c70d5cc8d Cuaya, G. (2015). Procesos de decisión de Markov aplicados en la locomoción de robots hexápodos. (Tesis de maestria) Tonantzintla. México. Recuperado de https://inaoe.repositorioinstitucional.mx/jspui/bitstream/1009/588/1/CuayaSG.pdf Covantec. (2014). Ventajas y desventajas. Recuperado de https://entrenamiento-python-basico.readthedocs.io/es/latest/leccion1/ventajas_desventajas.html#ventajas García, E. O. (2015). Aprendizaje por refuerzo mediante transferencia de conocimiento cualitativo. Recuperado de http://ccc.inaoep.mx/~jemc/blog/wp-content/uploads/2016/09/tesisOmar.pdf Github. (s.f). Openai/gym. Recuperado de: https://github.com/openai/gym/wiki/CartPole-v0 Gym.openai. (s.f). Getting Started with Gym. Recuperado de https://gym.openai.com/docs/ Gym. (s.f). CartPole-v0. Recuperado de https://gym.openai.com/envs/Cart-v0/ Gym. (s.f). MountainCar-v0. Recuperado de https://gym.openai.com/envs/MountainCar-v0/ Gym. (s.f). Pendulum-v0. Recuperado de https://gym.openai.com/envs/Pendulum-v0/ Hassabis, D. (2016). AlphaGo: using machine learning to master the ancient game of Go. Recuperado de https://blog.google/technology/ai/alphago-machine-learning-game-go/ Jaderberg, M. Wojciech, M. Czarnecki. Dunning, I. Marris, L. Lever, G. Garcia, A, Beattie, C. Rabinowitz, C. Morcos, A. Ruderman, A. Sonnerat, N. Green, T. Deason, L. Leibo, J. Silver, D. Hassabis, D. Kavukcuoglu, K. Graepel, T. (2019). Human-level performance in 3D multiplayer games with population-based reinforcement learning. Recuperado de https://science.sciencemag.org/content/364/6443/859 Lopez, R. (2015). Q-learning: Aprendizaje automático por refuerzo. Recuperado de https://rubenlopezg.wordpress.com/2015/05/12/q-learning-aprendizaje-automatico-por-refuerzo/ McCulloch, W. Pitts, W .(1943). A logical calculus of the the ideas immanet in nervous activity. Bulletin of mathematical biology, Vol 52, Recuperado de: https://link.springer.com/article/10.1007%2FBF02459570 McDonal, C. (2018). Solving multiarmed bandits: A comparison of epsilon-greedy and Thompson sampling. Recuperado de https://towardsdatascience.com/solving-multiarmed-bandits-a-comparison-of-epsilon-greedy-and-thompson-sampling-d97167ca9a50 Mnih, V. Kavukcuoglu, K. Silver, D. Graves, A. Antonoglou, L. Wierstra, D. Riedmiller, M. (2013). Playing Atari with Deep Reinforcement Learning. Recuperado de https://arxiv.org/pdf/1312.5602.pdf Moor, A. W. (1990). Efficient memory-based Learning for robot control. Recuperado de: https://www.cl.cam.ac.uk/techreports/UCAM-CL-TR-209.pdf Moor, J. (2003). The Turing test: The elusive standard of artificial intelligence. EE.UU: Science & Business Media. Nieto, J. (2018). La Inteligencia Artificial del Huawei P20 Pro, ¿cómo te afecta en el día a día? Recuperado de https://andro4all.com/huawei_ia/como-funciona-inteligencia-artificial-huawei-p20-pro Nº 171: IA Grafos - Aprendizaje por Refuerzo 03 (Activo, Q-Learning). (2017)Recuperado de https://www.youtube.com/watch?v=ZoRMKs8XLSA Ortego, D. (2017).Qué es Tensorflow? Recuperado de https://openwebinars.net/blog/que-es-tensorflow/ Pastor, J. (2017). AlphaGo aplasta al mejor jugador del mundo de Go, la inteligencia artificial es imbatible. Recuperado de https://www.xataka.com/robotica-e-ia/alphago-aplasta-al-mejor-jugador-del-mundo-de-go-la-inteligencia-artificial-es-imbatible Printista, A. M, Errecalde. M. L, Montoya, C. I. (2000). Una implementación paralela del algoritmo Q-Learning basada en un esquema de comunicación con caché. San Luis, Argentina. Recuperado de http://sedici.unlp.edu.ar/bitstream/handle/10915/23363/Documento_completo.pdf?sequence=1 RSTOPUR. Disponible en: https://rstopup.com/es-posible-la-creacion-de-un-nuevo-gimnasio-medio-ambiente-en-openai.html Ruiz, S. Hernández, B. (2014). Procesos de decisión de Markovy microescenarios para navegacióny evasión de colisiones para multitudes. Research in Computing Science. Recuperado de http://www.rcs.cic.ipn.mx/rcs/2014_74/Procesos%20de%20decision%20de%20Markov%20y%20microescenarios%20para%20navegacion%20y%20evasion%20de%20colisiones.pdf Simonini, T. (2018). An intro to Advantage Actor Critic methods: let’s play Sonic the Hedgehog!. Recuperado de https://www.freecodecamp.org/news/an-intro-to-advantage-actor-critic-methods-lets-play-sonic-the-hedgehog-86d6240171d/ Siembro, G. C. (2007) Procesos de decisión de Markov aplicados a la locomoción de robots hexápodos. Recuperado de http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/588 Sutton, R. S. Barto, A. G. (1998). Reinforcement learning: An introduction. Sutton, R. S. Barto, A. G. (1998). Introduction to reinforcement learning. Londres, Inglaterra. Recuperado de http://incompleteideas.net/book/bookdraft2017nov5.pdf Tensorflow. (s.f). An end-to-end open source machine learning platform. Recuperado de https://www.tensorflow.org/ Parra, S. (2013). La emergencia del buen juego en un tablero de damas de 1950 https://www.xatakaciencia.com/computacion/la-emergencia-del-buen-juego-en-un-tablero-de-damas-de-1950 Yoon, C. (s.f). Understanding Actor Critic Methods and A2C. Recuperado de https://towardsdatascience.com/understanding-actor-critic-methods-931b97b6df3f |
bitstream.url.fl_str_mv |
https://red.uao.edu.co/bitstreams/b335845a-8d86-4dff-bf7c-047ca8003ff0/download https://red.uao.edu.co/bitstreams/7fb18ad9-8195-426c-9f35-9d65727d23fd/download https://red.uao.edu.co/bitstreams/247377d7-999a-435d-81c8-a6766d4895b0/download https://red.uao.edu.co/bitstreams/d2800b78-f3c6-42fb-9f2b-a7d147aee90e/download https://red.uao.edu.co/bitstreams/5c026552-d44e-4d20-ad2e-93d0b609c33b/download https://red.uao.edu.co/bitstreams/ee77e170-c38c-4493-b0b0-6aaa3843f748/download https://red.uao.edu.co/bitstreams/fa088a10-6092-43d4-99d4-38dae045d33a/download https://red.uao.edu.co/bitstreams/a2f89ba6-bea5-476b-86b4-579c9e915fbf/download |
bitstream.checksum.fl_str_mv |
e15c216e396a39565308583dd193dad8 0275431bea02a36310fa33fb53439d79 265b4a0b408c5315408ac9a46252181d f102bc0f0d671166831c9da3f28ffb29 24013099e9e6abb1575dc6ce0855efd5 20b5ba22b1117f71589c7318baa2c560 1dd15e46060833fc21e67bdc1399c1e0 0035dc77fd0fb5f1c6e19b9d41553bc2 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositorio Digital Universidad Autonoma de Occidente |
repository.mail.fl_str_mv |
repositorio@uao.edu.co |
_version_ |
1814260141166428160 |
spelling |
López Sotelo, Jesús Alfonsovirtual::2926-1Díaz Latorre, Andrés Steven6541ac0bfa99ea41dbc299861d479232-1Ingeniero MecatrónicoUniversidad Autónoma de Occidente. Calle 25 115-85. Km 2 vía Cali-Jamundí2019-12-11T17:08:14Z2019-12-11T17:08:14Z2019-09-30http://red.uao.edu.co//handle/10614/11694El aprendizaje por refuerzo o RL – Reinforcement Learning, por sus siglas en inglés, es una rama de la inteligencia artificial que trata sobre un agente que recibe información de un entorno o ambiente en forma de estados y acciones, además de que actúa en el entorno, lo que resulta en un nuevo estado, el agente recibe una recompensa como pago al tomar una acción. Esta recompensa se le asigna al nuevo estado, por lo cual, a medida que el agente tome acciones la recompensa tendrá un valor tanto positivo como negativo. En el proyecto se desarrolló una serie de algoritmos en lenguaje Python para el control de sistemas dinámicos clásicos, utilizando las librerías Gym y Tensorflow. Se utilizó Python porque es uno de los lenguajes de programación más utilizados al ser de código abierto, orientado a objetos y por la facilidad de instalación de paquetes. Los métodos de aprendizaje que se utilizaron en los algoritmos están basados en Q-Learning, Deep Q-Learning y actor – crítico, más conocido como A2C. Además se presenta a modo de guía y con fines educativos el proceso paso a paso para la creación de entornos propios con la librería de Gym además de cómo implementar estos algoritmos en nuestros propios entornos dado a que gran parte de esta temática se encuentra disponible en inglés, incluso en algunas universidades el RL lo suelen resumir con Q-Learning, pero esta rama de inteligencia es más grandeReinforcement Learning or RL - by its initials in English, is a branch of artificial intelligence that deals with an agent that receives information from an environment or environment in the form of states and actions, in addition to acting in the environment, resulting in a new state, the agent receives a reward as payment when taking an action. This reward is assigned to the new state, therefore, as the agent takes action the reward will have both positive and negative value. In the project a series of algorithms in Python language were used for the control of classic dynamic systems, using the Gym and Tensorflow libraries. Python was used because it is one of the most used programming languages because it is open source, object oriented and because of the ease of installing packages. The learning methods used in the algorithms are available in Q-Learning, Deep Q-Learning and actor - critic, better known as A2C. In addition, a guide mode is presented and for educational purposes the step-by-step process for the creation of our own environments with the gym library as well as how to implement these algorithms in our own environments since much of this theme is available in English, even in some universities the RL usually summarize it with Q-Learning, but this branch of intelligence is largerProyecto de grado (Ingeniero Mecatrónico)-- Universidad Autónoma de Occidente, 2019PregradoIngeniero(a) Mecatrónico(a)application/pdf82 páginasspaUniversidad Autónoma de OccidenteIngeniería MecatrónicaDepartamento de Automática y ElectrónicaFacultad de IngenieríaDerechos Reservados - Universidad Autónoma de Occidentehttps://creativecommons.org/licenses/by-nc/4.0/info:eu-repo/semantics/openAccessAtribución-NoComercial 4.0 Internacional (CC BY-NC 4.0)http://purl.org/coar/access_right/c_abf2instname:Universidad Autónoma de Occidentereponame:Repositorio Institucional UAOBarto, A. G. Sutton, R. S. Anderson, C. W. (2013). Neuronlike Adaptive Elements That Can Solve Difficult Learning Control Problems. (IEEE Transactions on Systems, Man, and Cybernetics). Recuperado de http://www.derongliu.org/adp/adp-cdrom/Barto1983.pdf Boada, M. J. Boada, B. López, V. (2015). Algoritmo de aprendizaje por refuerzo continúo para el control de un sistema de suspensión semi – activa. Revista: Iberoamericana de Ingeniería Mecánica. Chandra, A. (2018). Perceptron: The Artificial Neuron (An Essential Upgrade To The McCulloch-Pitts Neuron). Recuperado de https://towardsdatascience.com/perceptron-the-artificial-neuron-4d8c70d5cc8d Cuaya, G. (2015). Procesos de decisión de Markov aplicados en la locomoción de robots hexápodos. (Tesis de maestria) Tonantzintla. México. Recuperado de https://inaoe.repositorioinstitucional.mx/jspui/bitstream/1009/588/1/CuayaSG.pdf Covantec. (2014). Ventajas y desventajas. Recuperado de https://entrenamiento-python-basico.readthedocs.io/es/latest/leccion1/ventajas_desventajas.html#ventajas García, E. O. (2015). Aprendizaje por refuerzo mediante transferencia de conocimiento cualitativo. Recuperado de http://ccc.inaoep.mx/~jemc/blog/wp-content/uploads/2016/09/tesisOmar.pdf Github. (s.f). Openai/gym. Recuperado de: https://github.com/openai/gym/wiki/CartPole-v0 Gym.openai. (s.f). Getting Started with Gym. Recuperado de https://gym.openai.com/docs/ Gym. (s.f). CartPole-v0. Recuperado de https://gym.openai.com/envs/Cart-v0/ Gym. (s.f). MountainCar-v0. Recuperado de https://gym.openai.com/envs/MountainCar-v0/ Gym. (s.f). Pendulum-v0. Recuperado de https://gym.openai.com/envs/Pendulum-v0/ Hassabis, D. (2016). AlphaGo: using machine learning to master the ancient game of Go. Recuperado de https://blog.google/technology/ai/alphago-machine-learning-game-go/ Jaderberg, M. Wojciech, M. Czarnecki. Dunning, I. Marris, L. Lever, G. Garcia, A, Beattie, C. Rabinowitz, C. Morcos, A. Ruderman, A. Sonnerat, N. Green, T. Deason, L. Leibo, J. Silver, D. Hassabis, D. Kavukcuoglu, K. Graepel, T. (2019). Human-level performance in 3D multiplayer games with population-based reinforcement learning. Recuperado de https://science.sciencemag.org/content/364/6443/859 Lopez, R. (2015). Q-learning: Aprendizaje automático por refuerzo. Recuperado de https://rubenlopezg.wordpress.com/2015/05/12/q-learning-aprendizaje-automatico-por-refuerzo/ McCulloch, W. Pitts, W .(1943). A logical calculus of the the ideas immanet in nervous activity. Bulletin of mathematical biology, Vol 52, Recuperado de: https://link.springer.com/article/10.1007%2FBF02459570 McDonal, C. (2018). Solving multiarmed bandits: A comparison of epsilon-greedy and Thompson sampling. Recuperado de https://towardsdatascience.com/solving-multiarmed-bandits-a-comparison-of-epsilon-greedy-and-thompson-sampling-d97167ca9a50 Mnih, V. Kavukcuoglu, K. Silver, D. Graves, A. Antonoglou, L. Wierstra, D. Riedmiller, M. (2013). Playing Atari with Deep Reinforcement Learning. Recuperado de https://arxiv.org/pdf/1312.5602.pdf Moor, A. W. (1990). Efficient memory-based Learning for robot control. Recuperado de: https://www.cl.cam.ac.uk/techreports/UCAM-CL-TR-209.pdf Moor, J. (2003). The Turing test: The elusive standard of artificial intelligence. EE.UU: Science & Business Media. Nieto, J. (2018). La Inteligencia Artificial del Huawei P20 Pro, ¿cómo te afecta en el día a día? Recuperado de https://andro4all.com/huawei_ia/como-funciona-inteligencia-artificial-huawei-p20-pro Nº 171: IA Grafos - Aprendizaje por Refuerzo 03 (Activo, Q-Learning). (2017)Recuperado de https://www.youtube.com/watch?v=ZoRMKs8XLSA Ortego, D. (2017).Qué es Tensorflow? Recuperado de https://openwebinars.net/blog/que-es-tensorflow/ Pastor, J. (2017). AlphaGo aplasta al mejor jugador del mundo de Go, la inteligencia artificial es imbatible. Recuperado de https://www.xataka.com/robotica-e-ia/alphago-aplasta-al-mejor-jugador-del-mundo-de-go-la-inteligencia-artificial-es-imbatible Printista, A. M, Errecalde. M. L, Montoya, C. I. (2000). Una implementación paralela del algoritmo Q-Learning basada en un esquema de comunicación con caché. San Luis, Argentina. Recuperado de http://sedici.unlp.edu.ar/bitstream/handle/10915/23363/Documento_completo.pdf?sequence=1 RSTOPUR. Disponible en: https://rstopup.com/es-posible-la-creacion-de-un-nuevo-gimnasio-medio-ambiente-en-openai.html Ruiz, S. Hernández, B. (2014). Procesos de decisión de Markovy microescenarios para navegacióny evasión de colisiones para multitudes. Research in Computing Science. Recuperado de http://www.rcs.cic.ipn.mx/rcs/2014_74/Procesos%20de%20decision%20de%20Markov%20y%20microescenarios%20para%20navegacion%20y%20evasion%20de%20colisiones.pdf Simonini, T. (2018). An intro to Advantage Actor Critic methods: let’s play Sonic the Hedgehog!. Recuperado de https://www.freecodecamp.org/news/an-intro-to-advantage-actor-critic-methods-lets-play-sonic-the-hedgehog-86d6240171d/ Siembro, G. C. (2007) Procesos de decisión de Markov aplicados a la locomoción de robots hexápodos. Recuperado de http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/588 Sutton, R. S. Barto, A. G. (1998). Reinforcement learning: An introduction. Sutton, R. S. Barto, A. G. (1998). Introduction to reinforcement learning. Londres, Inglaterra. Recuperado de http://incompleteideas.net/book/bookdraft2017nov5.pdf Tensorflow. (s.f). An end-to-end open source machine learning platform. Recuperado de https://www.tensorflow.org/ Parra, S. (2013). La emergencia del buen juego en un tablero de damas de 1950 https://www.xatakaciencia.com/computacion/la-emergencia-del-buen-juego-en-un-tablero-de-damas-de-1950 Yoon, C. (s.f). Understanding Actor Critic Methods and A2C. Recuperado de https://towardsdatascience.com/understanding-actor-critic-methods-931b97b6df3fIngenería MecatrónicaAlgoritmos (Computadores)Aprendizaje automático (Inteligencia artificial)Reinforcement learningComputer algorithmsMachine learningAprendizaje por refuerzo para control de sistemas dinámicosTrabajo de grado - Pregradohttp://purl.org/coar/resource_type/c_7a1fTextinfo:eu-repo/semantics/bachelorThesishttps://purl.org/redcol/resource_type/TPinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/version/c_970fb48d4fbd8a85Publicationhttps://scholar.google.com.au/citations?user=7PIjh_MAAAAJ&hl=envirtual::2926-10000-0002-9731-8458virtual::2926-1https://scienti.minciencias.gov.co/cvlac/visualizador/generarCurriculoCv.do?cod_rh=0000249106virtual::2926-1fc227fb1-22ec-47f0-afe7-521c61fddd32virtual::2926-1fc227fb1-22ec-47f0-afe7-521c61fddd32virtual::2926-1TEXTT08883.pdf.txtT08883.pdf.txtExtracted texttext/plain106446https://red.uao.edu.co/bitstreams/b335845a-8d86-4dff-bf7c-047ca8003ff0/downloade15c216e396a39565308583dd193dad8MD57TA8883.pdf.txtTA8883.pdf.txtExtracted texttext/plain4159https://red.uao.edu.co/bitstreams/7fb18ad9-8195-426c-9f35-9d65727d23fd/download0275431bea02a36310fa33fb53439d79MD59THUMBNAILT08883.pdf.jpgT08883.pdf.jpgGenerated Thumbnailimage/jpeg6016https://red.uao.edu.co/bitstreams/247377d7-999a-435d-81c8-a6766d4895b0/download265b4a0b408c5315408ac9a46252181dMD58TA8883.pdf.jpgTA8883.pdf.jpgGenerated Thumbnailimage/jpeg13060https://red.uao.edu.co/bitstreams/d2800b78-f3c6-42fb-9f2b-a7d147aee90e/downloadf102bc0f0d671166831c9da3f28ffb29MD510CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8914https://red.uao.edu.co/bitstreams/5c026552-d44e-4d20-ad2e-93d0b609c33b/download24013099e9e6abb1575dc6ce0855efd5MD53LICENSElicense.txtlicense.txttext/plain; charset=utf-81665https://red.uao.edu.co/bitstreams/ee77e170-c38c-4493-b0b0-6aaa3843f748/download20b5ba22b1117f71589c7318baa2c560MD54ORIGINALT08883.pdfT08883.pdfapplication/pdf1257383https://red.uao.edu.co/bitstreams/fa088a10-6092-43d4-99d4-38dae045d33a/download1dd15e46060833fc21e67bdc1399c1e0MD55TA8883.pdfTA8883.pdfapplication/pdf97817https://red.uao.edu.co/bitstreams/a2f89ba6-bea5-476b-86b4-579c9e915fbf/download0035dc77fd0fb5f1c6e19b9d41553bc2MD5610614/11694oai:red.uao.edu.co:10614/116942024-03-07 16:47:40.801https://creativecommons.org/licenses/by-nc/4.0/Derechos Reservados - Universidad Autónoma de Occidenteopen.accesshttps://red.uao.edu.coRepositorio Digital Universidad Autonoma de Occidenterepositorio@uao.edu.coRUwgQVVUT1IgYXV0b3JpemEgYSBsYSBVbml2ZXJzaWRhZCBBdXTDs25vbWEgZGUgT2NjaWRlbnRlLCBkZSBmb3JtYSBpbmRlZmluaWRhLCBwYXJhIHF1ZSBlbiBsb3MgdMOpcm1pbm9zIGVzdGFibGVjaWRvcyBlbiBsYSBMZXkgMjMgZGUgMTk4MiwgbGEgTGV5IDQ0IGRlIDE5OTMsIGxhIERlY2lzacOzbiBhbmRpbmEgMzUxIGRlIDE5OTMsIGVsIERlY3JldG8gNDYwIGRlIDE5OTUgeSBkZW3DoXMgbGV5ZXMgeSBqdXJpc3BydWRlbmNpYSB2aWdlbnRlIGFsIHJlc3BlY3RvLCBoYWdhIHB1YmxpY2FjacOzbiBkZSBlc3RlIGNvbiBmaW5lcyBlZHVjYXRpdm9zLiBQQVJBR1JBRk86IEVzdGEgYXV0b3JpemFjacOzbiBhZGVtw6FzIGRlIHNlciB2w6FsaWRhIHBhcmEgbGFzIGZhY3VsdGFkZXMgeSBkZXJlY2hvcyBkZSB1c28gc29icmUgbGEgb2JyYSBlbiBmb3JtYXRvIG8gc29wb3J0ZSBtYXRlcmlhbCwgdGFtYmnDqW4gcGFyYSBmb3JtYXRvIGRpZ2l0YWwsIGVsZWN0csOzbmljbywgdmlydHVhbCwgcGFyYSB1c29zIGVuIHJlZCwgSW50ZXJuZXQsIGV4dHJhbmV0LCBpbnRyYW5ldCwgYmlibGlvdGVjYSBkaWdpdGFsIHkgZGVtw6FzIHBhcmEgY3VhbHF1aWVyIGZvcm1hdG8gY29ub2NpZG8gbyBwb3IgY29ub2Nlci4gRUwgQVVUT1IsIGV4cHJlc2EgcXVlIGVsIGRvY3VtZW50byAodHJhYmFqbyBkZSBncmFkbywgcGFzYW50w61hLCBjYXNvcyBvIHRlc2lzKSBvYmpldG8gZGUgbGEgcHJlc2VudGUgYXV0b3JpemFjacOzbiBlcyBvcmlnaW5hbCB5IGxhIGVsYWJvcsOzIHNpbiBxdWVicmFudGFyIG5pIHN1cGxhbnRhciBsb3MgZGVyZWNob3MgZGUgYXV0b3IgZGUgdGVyY2Vyb3MsIHkgZGUgdGFsIGZvcm1hLCBlbCBkb2N1bWVudG8gKHRyYWJham8gZGUgZ3JhZG8sIHBhc2FudMOtYSwgY2Fzb3MgbyB0ZXNpcykgZXMgZGUgc3UgZXhjbHVzaXZhIGF1dG9yw61hIHkgdGllbmUgbGEgdGl0dWxhcmlkYWQgc29icmUgw6lzdGUuIFBBUkFHUkFGTzogZW4gY2FzbyBkZSBwcmVzZW50YXJzZSBhbGd1bmEgcmVjbGFtYWNpw7NuIG8gYWNjacOzbiBwb3IgcGFydGUgZGUgdW4gdGVyY2VybywgcmVmZXJlbnRlIGEgbG9zIGRlcmVjaG9zIGRlIGF1dG9yIHNvYnJlIGVsIGRvY3VtZW50byAoVHJhYmFqbyBkZSBncmFkbywgUGFzYW50w61hLCBjYXNvcyBvIHRlc2lzKSBlbiBjdWVzdGnDs24sIEVMIEFVVE9SLCBhc3VtaXLDoSBsYSByZXNwb25zYWJpbGlkYWQgdG90YWwsIHkgc2FsZHLDoSBlbiBkZWZlbnNhIGRlIGxvcyBkZXJlY2hvcyBhcXXDrSBhdXRvcml6YWRvczsgcGFyYSB0b2RvcyBsb3MgZWZlY3RvcywgbGEgVW5pdmVyc2lkYWQgIEF1dMOzbm9tYSBkZSBPY2NpZGVudGUgYWN0w7phIGNvbW8gdW4gdGVyY2VybyBkZSBidWVuYSBmZS4gVG9kYSBwZXJzb25hIHF1ZSBjb25zdWx0ZSB5YSBzZWEgZW4gbGEgYmlibGlvdGVjYSBvIGVuIG1lZGlvIGVsZWN0csOzbmljbyBwb2Ryw6EgY29waWFyIGFwYXJ0ZXMgZGVsIHRleHRvIGNpdGFuZG8gc2llbXByZSBsYSBmdWVudGUsIGVzIGRlY2lyIGVsIHTDrXR1bG8gZGVsIHRyYWJham8geSBlbCBhdXRvci4gRXN0YSBhdXRvcml6YWNpw7NuIG5vIGltcGxpY2EgcmVudW5jaWEgYSBsYSBmYWN1bHRhZCBxdWUgdGllbmUgRUwgQVVUT1IgZGUgcHVibGljYXIgdG90YWwgbyBwYXJjaWFsbWVudGUgbGEgb2JyYS4K |