Aprendizaje por refuerzo para control de sistemas dinámicos

El aprendizaje por refuerzo o RL – Reinforcement Learning, por sus siglas en inglés, es una rama de la inteligencia artificial que trata sobre un agente que recibe información de un entorno o ambiente en forma de estados y acciones, además de que actúa en el entorno, lo que resulta en un nuevo estad...

Full description

Autores:: Díaz Latorre, Andrés Steven

Tipo de recurso:: Trabajo de grado de pregrado

Fecha de publicación:: 2019

Institución:: Universidad Autónoma de Occidente

Repositorio:: RED: Repositorio Educativo Digital UAO

Idioma:: spa

id	REPOUAO2_87b6ce31fb22b2c7810ab21ffc158222
oai_identifier_str	oai:red.uao.edu.co:10614/11694
network_acronym_str	REPOUAO2
network_name_str	RED: Repositorio Educativo Digital UAO
repository_id_str
dc.title.spa.fl_str_mv	Aprendizaje por refuerzo para control de sistemas dinámicos
title	Aprendizaje por refuerzo para control de sistemas dinámicos
spellingShingle	Aprendizaje por refuerzo para control de sistemas dinámicos Ingenería Mecatrónica Algoritmos (Computadores) Aprendizaje automático (Inteligencia artificial) Reinforcement learning Computer algorithms Machine learning
title_short	Aprendizaje por refuerzo para control de sistemas dinámicos
title_full	Aprendizaje por refuerzo para control de sistemas dinámicos
title_fullStr	Aprendizaje por refuerzo para control de sistemas dinámicos
title_full_unstemmed	Aprendizaje por refuerzo para control de sistemas dinámicos
title_sort	Aprendizaje por refuerzo para control de sistemas dinámicos
dc.creator.fl_str_mv	Díaz Latorre, Andrés Steven
dc.contributor.advisor.none.fl_str_mv	López Sotelo, Jesús Alfonso
dc.contributor.author.spa.fl_str_mv	Díaz Latorre, Andrés Steven
dc.subject.spa.fl_str_mv	Ingenería Mecatrónica Algoritmos (Computadores) Aprendizaje automático (Inteligencia artificial)
topic	Ingenería Mecatrónica Algoritmos (Computadores) Aprendizaje automático (Inteligencia artificial) Reinforcement learning Computer algorithms Machine learning
dc.subject.eng.fl_str_mv	Reinforcement learning Computer algorithms Machine learning
description	El aprendizaje por refuerzo o RL – Reinforcement Learning, por sus siglas en inglés, es una rama de la inteligencia artificial que trata sobre un agente que recibe información de un entorno o ambiente en forma de estados y acciones, además de que actúa en el entorno, lo que resulta en un nuevo estado, el agente recibe una recompensa como pago al tomar una acción. Esta recompensa se le asigna al nuevo estado, por lo cual, a medida que el agente tome acciones la recompensa tendrá un valor tanto positivo como negativo. En el proyecto se desarrolló una serie de algoritmos en lenguaje Python para el control de sistemas dinámicos clásicos, utilizando las librerías Gym y Tensorflow. Se utilizó Python porque es uno de los lenguajes de programación más utilizados al ser de código abierto, orientado a objetos y por la facilidad de instalación de paquetes. Los métodos de aprendizaje que se utilizaron en los algoritmos están basados en Q-Learning, Deep Q-Learning y actor – crítico, más conocido como A2C. Además se presenta a modo de guía y con fines educativos el proceso paso a paso para la creación de entornos propios con la librería de Gym además de cómo implementar estos algoritmos en nuestros propios entornos dado a que gran parte de esta temática se encuentra disponible en inglés, incluso en algunas universidades el RL lo suelen resumir con Q-Learning, pero esta rama de inteligencia es más grande
publishDate	2019
dc.date.accessioned.spa.fl_str_mv	2019-12-11T17:08:14Z
dc.date.available.spa.fl_str_mv	2019-12-11T17:08:14Z
dc.date.issued.spa.fl_str_mv	2019-09-30
dc.type.spa.fl_str_mv	Trabajo de grado - Pregrado
dc.type.coarversion.fl_str_mv	http://purl.org/coar/version/c_970fb48d4fbd8a85
dc.type.coar.spa.fl_str_mv	http://purl.org/coar/resource_type/c_7a1f
dc.type.content.spa.fl_str_mv	Text
dc.type.driver.spa.fl_str_mv	info:eu-repo/semantics/bachelorThesis
dc.type.redcol.spa.fl_str_mv	https://purl.org/redcol/resource_type/TP
dc.type.version.spa.fl_str_mv	info:eu-repo/semantics/publishedVersion
format	http://purl.org/coar/resource_type/c_7a1f
status_str	publishedVersion
dc.identifier.uri.spa.fl_str_mv	http://red.uao.edu.co//handle/10614/11694
url	http://red.uao.edu.co//handle/10614/11694
dc.language.iso.spa.fl_str_mv	spa
language	spa
dc.rights.spa.fl_str_mv	Derechos Reservados - Universidad Autónoma de Occidente
dc.rights.coar.fl_str_mv	http://purl.org/coar/access_right/c_abf2
dc.rights.uri.spa.fl_str_mv	https://creativecommons.org/licenses/by-nc/4.0/
dc.rights.accessrights.spa.fl_str_mv	info:eu-repo/semantics/openAccess
dc.rights.creativecommons.spa.fl_str_mv	Atribución-NoComercial 4.0 Internacional (CC BY-NC 4.0)
rights_invalid_str_mv	Derechos Reservados - Universidad Autónoma de Occidente https://creativecommons.org/licenses/by-nc/4.0/ Atribución-NoComercial 4.0 Internacional (CC BY-NC 4.0) http://purl.org/coar/access_right/c_abf2
eu_rights_str_mv	openAccess
dc.format.spa.fl_str_mv	application/pdf
dc.format.extent.spa.fl_str_mv	82 páginas
dc.coverage.spatial.spa.fl_str_mv	Universidad Autónoma de Occidente. Calle 25 115-85. Km 2 vía Cali-Jamundí
dc.publisher.spa.fl_str_mv	Universidad Autónoma de Occidente
dc.publisher.program.spa.fl_str_mv	Ingeniería Mecatrónica
dc.publisher.department.spa.fl_str_mv	Departamento de Automática y Electrónica
dc.publisher.faculty.spa.fl_str_mv	Facultad de Ingeniería
dc.source.spa.fl_str_mv	instname:Universidad Autónoma de Occidente reponame:Repositorio Institucional UAO
instname_str	Universidad Autónoma de Occidente
institution	Universidad Autónoma de Occidente
reponame_str	Repositorio Institucional UAO
collection	Repositorio Institucional UAO
dc.source.bibliographiccitation.spa.fl_str_mv	Barto, A. G. Sutton, R. S. Anderson, C. W. (2013). Neuronlike Adaptive Elements That Can Solve Difficult Learning Control Problems. (IEEE Transactions on Systems, Man, and Cybernetics). Recuperado de http://www.derongliu.org/adp/adp-cdrom/Barto1983.pdf Boada, M. J. Boada, B. López, V. (2015). Algoritmo de aprendizaje por refuerzo continúo para el control de un sistema de suspensión semi – activa. Revista: Iberoamericana de Ingeniería Mecánica. Chandra, A. (2018). Perceptron: The Artificial Neuron (An Essential Upgrade To The McCulloch-Pitts Neuron). Recuperado de https://towardsdatascience.com/perceptron-the-artificial-neuron-4d8c70d5cc8d Cuaya, G. (2015). Procesos de decisión de Markov aplicados en la locomoción de robots hexápodos. (Tesis de maestria) Tonantzintla. México. Recuperado de https://inaoe.repositorioinstitucional.mx/jspui/bitstream/1009/588/1/CuayaSG.pdf Covantec. (2014). Ventajas y desventajas. Recuperado de https://entrenamiento-python-basico.readthedocs.io/es/latest/leccion1/ventajas_desventajas.html#ventajas García, E. O. (2015). Aprendizaje por refuerzo mediante transferencia de conocimiento cualitativo. Recuperado de http://ccc.inaoep.mx/~jemc/blog/wp-content/uploads/2016/09/tesisOmar.pdf Github. (s.f). Openai/gym. Recuperado de: https://github.com/openai/gym/wiki/CartPole-v0 Gym.openai. (s.f). Getting Started with Gym. Recuperado de https://gym.openai.com/docs/ Gym. (s.f). CartPole-v0. Recuperado de https://gym.openai.com/envs/Cart-v0/ Gym. (s.f). MountainCar-v0. Recuperado de https://gym.openai.com/envs/MountainCar-v0/ Gym. (s.f). Pendulum-v0. Recuperado de https://gym.openai.com/envs/Pendulum-v0/ Hassabis, D. (2016). AlphaGo: using machine learning to master the ancient game of Go. Recuperado de https://blog.google/technology/ai/alphago-machine-learning-game-go/ Jaderberg, M. Wojciech, M. Czarnecki. Dunning, I. Marris, L. Lever, G. Garcia, A, Beattie, C. Rabinowitz, C. Morcos, A. Ruderman, A. Sonnerat, N. Green, T. Deason, L. Leibo, J. Silver, D. Hassabis, D. Kavukcuoglu, K. Graepel, T. (2019). Human-level performance in 3D multiplayer games with population-based reinforcement learning. Recuperado de https://science.sciencemag.org/content/364/6443/859 Lopez, R. (2015). Q-learning: Aprendizaje automático por refuerzo. Recuperado de https://rubenlopezg.wordpress.com/2015/05/12/q-learning-aprendizaje-automatico-por-refuerzo/ McCulloch, W. Pitts, W .(1943). A logical calculus of the the ideas immanet in nervous activity. Bulletin of mathematical biology, Vol 52, Recuperado de: https://link.springer.com/article/10.1007%2FBF02459570 McDonal, C. (2018). Solving multiarmed bandits: A comparison of epsilon-greedy and Thompson sampling. Recuperado de https://towardsdatascience.com/solving-multiarmed-bandits-a-comparison-of-epsilon-greedy-and-thompson-sampling-d97167ca9a50 Mnih, V. Kavukcuoglu, K. Silver, D. Graves, A. Antonoglou, L. Wierstra, D. Riedmiller, M. (2013). Playing Atari with Deep Reinforcement Learning. Recuperado de https://arxiv.org/pdf/1312.5602.pdf Moor, A. W. (1990). Efficient memory-based Learning for robot control. Recuperado de: https://www.cl.cam.ac.uk/techreports/UCAM-CL-TR-209.pdf Moor, J. (2003). The Turing test: The elusive standard of artificial intelligence. EE.UU: Science & Business Media. Nieto, J. (2018). La Inteligencia Artificial del Huawei P20 Pro, ¿cómo te afecta en el día a día? Recuperado de https://andro4all.com/huawei_ia/como-funciona-inteligencia-artificial-huawei-p20-pro Nº 171: IA Grafos - Aprendizaje por Refuerzo 03 (Activo, Q-Learning). (2017)Recuperado de https://www.youtube.com/watch?v=ZoRMKs8XLSA Ortego, D. (2017).Qué es Tensorflow? Recuperado de https://openwebinars.net/blog/que-es-tensorflow/ Pastor, J. (2017). AlphaGo aplasta al mejor jugador del mundo de Go, la inteligencia artificial es imbatible. Recuperado de https://www.xataka.com/robotica-e-ia/alphago-aplasta-al-mejor-jugador-del-mundo-de-go-la-inteligencia-artificial-es-imbatible Printista, A. M, Errecalde. M. L, Montoya, C. I. (2000). Una implementación paralela del algoritmo Q-Learning basada en un esquema de comunicación con caché. San Luis, Argentina. Recuperado de http://sedici.unlp.edu.ar/bitstream/handle/10915/23363/Documento_completo.pdf?sequence=1 RSTOPUR. Disponible en: https://rstopup.com/es-posible-la-creacion-de-un-nuevo-gimnasio-medio-ambiente-en-openai.html Ruiz, S. Hernández, B. (2014). Procesos de decisión de Markovy microescenarios para navegacióny evasión de colisiones para multitudes. Research in Computing Science. Recuperado de http://www.rcs.cic.ipn.mx/rcs/2014_74/Procesos%20de%20decision%20de%20Markov%20y%20microescenarios%20para%20navegacion%20y%20evasion%20de%20colisiones.pdf Simonini, T. (2018). An intro to Advantage Actor Critic methods: let’s play Sonic the Hedgehog!. Recuperado de https://www.freecodecamp.org/news/an-intro-to-advantage-actor-critic-methods-lets-play-sonic-the-hedgehog-86d6240171d/ Siembro, G. C. (2007) Procesos de decisión de Markov aplicados a la locomoción de robots hexápodos. Recuperado de http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/588 Sutton, R. S. Barto, A. G. (1998). Reinforcement learning: An introduction. Sutton, R. S. Barto, A. G. (1998). Introduction to reinforcement learning. Londres, Inglaterra. Recuperado de http://incompleteideas.net/book/bookdraft2017nov5.pdf Tensorflow. (s.f). An end-to-end open source machine learning platform. Recuperado de https://www.tensorflow.org/ Parra, S. (2013). La emergencia del buen juego en un tablero de damas de 1950 https://www.xatakaciencia.com/computacion/la-emergencia-del-buen-juego-en-un-tablero-de-damas-de-1950 Yoon, C. (s.f). Understanding Actor Critic Methods and A2C. Recuperado de https://towardsdatascience.com/understanding-actor-critic-methods-931b97b6df3f
bitstream.url.fl_str_mv	https://red.uao.edu.co/bitstreams/b335845a-8d86-4dff-bf7c-047ca8003ff0/download https://red.uao.edu.co/bitstreams/7fb18ad9-8195-426c-9f35-9d65727d23fd/download https://red.uao.edu.co/bitstreams/247377d7-999a-435d-81c8-a6766d4895b0/download https://red.uao.edu.co/bitstreams/d2800b78-f3c6-42fb-9f2b-a7d147aee90e/download https://red.uao.edu.co/bitstreams/5c026552-d44e-4d20-ad2e-93d0b609c33b/download https://red.uao.edu.co/bitstreams/ee77e170-c38c-4493-b0b0-6aaa3843f748/download https://red.uao.edu.co/bitstreams/fa088a10-6092-43d4-99d4-38dae045d33a/download https://red.uao.edu.co/bitstreams/a2f89ba6-bea5-476b-86b4-579c9e915fbf/download
bitstream.checksum.fl_str_mv	e15c216e396a39565308583dd193dad8 0275431bea02a36310fa33fb53439d79 265b4a0b408c5315408ac9a46252181d f102bc0f0d671166831c9da3f28ffb29 24013099e9e6abb1575dc6ce0855efd5 20b5ba22b1117f71589c7318baa2c560 1dd15e46060833fc21e67bdc1399c1e0 0035dc77fd0fb5f1c6e19b9d41553bc2
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5 MD5 MD5 MD5 MD5 MD5
repository.name.fl_str_mv	Repositorio Digital Universidad Autonoma de Occidente
repository.mail.fl_str_mv	repositorio@uao.edu.co
_version_	1837098988803719168
spelling	López Sotelo, Jesús Alfonsovirtual::2926-1Díaz Latorre, Andrés Steven6541ac0bfa99ea41dbc299861d479232-1Ingeniero MecatrónicoUniversidad Autónoma de Occidente. Calle 25 115-85. Km 2 vía Cali-Jamundí2019-12-11T17:08:14Z2019-12-11T17:08:14Z2019-09-30http://red.uao.edu.co//handle/10614/11694El aprendizaje por refuerzo o RL – Reinforcement Learning, por sus siglas en inglés, es una rama de la inteligencia artificial que trata sobre un agente que recibe información de un entorno o ambiente en forma de estados y acciones, además de que actúa en el entorno, lo que resulta en un nuevo estado, el agente recibe una recompensa como pago al tomar una acción. Esta recompensa se le asigna al nuevo estado, por lo cual, a medida que el agente tome acciones la recompensa tendrá un valor tanto positivo como negativo. En el proyecto se desarrolló una serie de algoritmos en lenguaje Python para el control de sistemas dinámicos clásicos, utilizando las librerías Gym y Tensorflow. Se utilizó Python porque es uno de los lenguajes de programación más utilizados al ser de código abierto, orientado a objetos y por la facilidad de instalación de paquetes. Los métodos de aprendizaje que se utilizaron en los algoritmos están basados en Q-Learning, Deep Q-Learning y actor – crítico, más conocido como A2C. Además se presenta a modo de guía y con fines educativos el proceso paso a paso para la creación de entornos propios con la librería de Gym además de cómo implementar estos algoritmos en nuestros propios entornos dado a que gran parte de esta temática se encuentra disponible en inglés, incluso en algunas universidades el RL lo suelen resumir con Q-Learning, pero esta rama de inteligencia es más grandeReinforcement Learning or RL - by its initials in English, is a branch of artificial intelligence that deals with an agent that receives information from an environment or environment in the form of states and actions, in addition to acting in the environment, resulting in a new state, the agent receives a reward as payment when taking an action. This reward is assigned to the new state, therefore, as the agent takes action the reward will have both positive and negative value. In the project a series of algorithms in Python language were used for the control of classic dynamic systems, using the Gym and Tensorflow libraries. Python was used because it is one of the most used programming languages because it is open source, object oriented and because of the ease of installing packages. The learning methods used in the algorithms are available in Q-Learning, Deep Q-Learning and actor - critic, better known as A2C. In addition, a guide mode is presented and for educational purposes the step-by-step process for the creation of our own environments with the gym library as well as how to implement these algorithms in our own environments since much of this theme is available in English, even in some universities the RL usually summarize it with Q-Learning, but this branch of intelligence is largerProyecto de grado (Ingeniero Mecatrónico)-- Universidad Autónoma de Occidente, 2019PregradoIngeniero(a) Mecatrónico(a)application/pdf82 páginasspaUniversidad Autónoma de OccidenteIngeniería MecatrónicaDepartamento de Automática y ElectrónicaFacultad de IngenieríaDerechos Reservados - Universidad Autónoma de Occidentehttps://creativecommons.org/licenses/by-nc/4.0/info:eu-repo/semantics/openAccessAtribución-NoComercial 4.0 Internacional (CC BY-NC 4.0)http://purl.org/coar/access_right/c_abf2instname:Universidad Autónoma de Occidentereponame:Repositorio Institucional UAOBarto, A. G. Sutton, R. S. Anderson, C. W. (2013). Neuronlike Adaptive Elements That Can Solve Difficult Learning Control Problems. (IEEE Transactions on Systems, Man, and Cybernetics). Recuperado de http://www.derongliu.org/adp/adp-cdrom/Barto1983.pdf Boada, M. J. Boada, B. López, V. (2015). Algoritmo de aprendizaje por refuerzo continúo para el control de un sistema de suspensión semi – activa. Revista: Iberoamericana de Ingeniería Mecánica. Chandra, A. (2018). Perceptron: The Artificial Neuron (An Essential Upgrade To The McCulloch-Pitts Neuron). Recuperado de https://towardsdatascience.com/perceptron-the-artificial-neuron-4d8c70d5cc8d Cuaya, G. (2015). Procesos de decisión de Markov aplicados en la locomoción de robots hexápodos. (Tesis de maestria) Tonantzintla. México. Recuperado de https://inaoe.repositorioinstitucional.mx/jspui/bitstream/1009/588/1/CuayaSG.pdf Covantec. (2014). Ventajas y desventajas. Recuperado de https://entrenamiento-python-basico.readthedocs.io/es/latest/leccion1/ventajas_desventajas.html#ventajas García, E. O. (2015). Aprendizaje por refuerzo mediante transferencia de conocimiento cualitativo. Recuperado de http://ccc.inaoep.mx/~jemc/blog/wp-content/uploads/2016/09/tesisOmar.pdf Github. (s.f). Openai/gym. Recuperado de: https://github.com/openai/gym/wiki/CartPole-v0 Gym.openai. (s.f). Getting Started with Gym. Recuperado de https://gym.openai.com/docs/ Gym. (s.f). CartPole-v0. Recuperado de https://gym.openai.com/envs/Cart-v0/ Gym. (s.f). MountainCar-v0. Recuperado de https://gym.openai.com/envs/MountainCar-v0/ Gym. (s.f). Pendulum-v0. Recuperado de https://gym.openai.com/envs/Pendulum-v0/ Hassabis, D. (2016). AlphaGo: using machine learning to master the ancient game of Go. Recuperado de https://blog.google/technology/ai/alphago-machine-learning-game-go/ Jaderberg, M. Wojciech, M. Czarnecki. Dunning, I. Marris, L. Lever, G. Garcia, A, Beattie, C. Rabinowitz, C. Morcos, A. Ruderman, A. Sonnerat, N. Green, T. Deason, L. Leibo, J. Silver, D. Hassabis, D. Kavukcuoglu, K. Graepel, T. (2019). Human-level performance in 3D multiplayer games with population-based reinforcement learning. Recuperado de https://science.sciencemag.org/content/364/6443/859 Lopez, R. (2015). Q-learning: Aprendizaje automático por refuerzo. Recuperado de https://rubenlopezg.wordpress.com/2015/05/12/q-learning-aprendizaje-automatico-por-refuerzo/ McCulloch, W. Pitts, W .(1943). A logical calculus of the the ideas immanet in nervous activity. Bulletin of mathematical biology, Vol 52, Recuperado de: https://link.springer.com/article/10.1007%2FBF02459570 McDonal, C. (2018). Solving multiarmed bandits: A comparison of epsilon-greedy and Thompson sampling. Recuperado de https://towardsdatascience.com/solving-multiarmed-bandits-a-comparison-of-epsilon-greedy-and-thompson-sampling-d97167ca9a50 Mnih, V. Kavukcuoglu, K. Silver, D. Graves, A. Antonoglou, L. Wierstra, D. Riedmiller, M. (2013). Playing Atari with Deep Reinforcement Learning. Recuperado de https://arxiv.org/pdf/1312.5602.pdf Moor, A. W. (1990). Efficient memory-based Learning for robot control. Recuperado de: https://www.cl.cam.ac.uk/techreports/UCAM-CL-TR-209.pdf Moor, J. (2003). The Turing test: The elusive standard of artificial intelligence. EE.UU: Science & Business Media. Nieto, J. (2018). La Inteligencia Artificial del Huawei P20 Pro, ¿cómo te afecta en el día a día? Recuperado de https://andro4all.com/huawei_ia/como-funciona-inteligencia-artificial-huawei-p20-pro Nº 171: IA Grafos - Aprendizaje por Refuerzo 03 (Activo, Q-Learning). (2017)Recuperado de https://www.youtube.com/watch?v=ZoRMKs8XLSA Ortego, D. (2017).Qué es Tensorflow? Recuperado de https://openwebinars.net/blog/que-es-tensorflow/ Pastor, J. (2017). AlphaGo aplasta al mejor jugador del mundo de Go, la inteligencia artificial es imbatible. Recuperado de https://www.xataka.com/robotica-e-ia/alphago-aplasta-al-mejor-jugador-del-mundo-de-go-la-inteligencia-artificial-es-imbatible Printista, A. M, Errecalde. M. L, Montoya, C. I. (2000). Una implementación paralela del algoritmo Q-Learning basada en un esquema de comunicación con caché. San Luis, Argentina. Recuperado de http://sedici.unlp.edu.ar/bitstream/handle/10915/23363/Documento_completo.pdf?sequence=1 RSTOPUR. Disponible en: https://rstopup.com/es-posible-la-creacion-de-un-nuevo-gimnasio-medio-ambiente-en-openai.html Ruiz, S. Hernández, B. (2014). Procesos de decisión de Markovy microescenarios para navegacióny evasión de colisiones para multitudes. Research in Computing Science. Recuperado de http://www.rcs.cic.ipn.mx/rcs/2014_74/Procesos%20de%20decision%20de%20Markov%20y%20microescenarios%20para%20navegacion%20y%20evasion%20de%20colisiones.pdf Simonini, T. (2018). An intro to Advantage Actor Critic methods: let’s play Sonic the Hedgehog!. Recuperado de https://www.freecodecamp.org/news/an-intro-to-advantage-actor-critic-methods-lets-play-sonic-the-hedgehog-86d6240171d/ Siembro, G. C. (2007) Procesos de decisión de Markov aplicados a la locomoción de robots hexápodos. Recuperado de http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/588 Sutton, R. S. Barto, A. G. (1998). Reinforcement learning: An introduction. Sutton, R. S. Barto, A. G. (1998). Introduction to reinforcement learning. Londres, Inglaterra. Recuperado de http://incompleteideas.net/book/bookdraft2017nov5.pdf Tensorflow. (s.f). An end-to-end open source machine learning platform. Recuperado de https://www.tensorflow.org/ Parra, S. (2013). La emergencia del buen juego en un tablero de damas de 1950 https://www.xatakaciencia.com/computacion/la-emergencia-del-buen-juego-en-un-tablero-de-damas-de-1950 Yoon, C. (s.f). Understanding Actor Critic Methods and A2C. Recuperado de https://towardsdatascience.com/understanding-actor-critic-methods-931b97b6df3fIngenería MecatrónicaAlgoritmos (Computadores)Aprendizaje automático (Inteligencia artificial)Reinforcement learningComputer algorithmsMachine learningAprendizaje por refuerzo para control de sistemas dinámicosTrabajo de grado - Pregradohttp://purl.org/coar/resource_type/c_7a1fTextinfo:eu-repo/semantics/bachelorThesishttps://purl.org/redcol/resource_type/TPinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/version/c_970fb48d4fbd8a85Publicationhttps://scholar.google.com.au/citations?user=7PIjh_MAAAAJ&hl=envirtual::2926-10000-0002-9731-8458virtual::2926-1https://scienti.minciencias.gov.co/cvlac/visualizador/generarCurriculoCv.do?cod_rh=0000249106virtual::2926-1fc227fb1-22ec-47f0-afe7-521c61fddd32virtual::2926-1fc227fb1-22ec-47f0-afe7-521c61fddd32virtual::2926-1TEXTT08883.pdf.txtT08883.pdf.txtExtracted texttext/plain106446https://red.uao.edu.co/bitstreams/b335845a-8d86-4dff-bf7c-047ca8003ff0/downloade15c216e396a39565308583dd193dad8MD57TA8883.pdf.txtTA8883.pdf.txtExtracted texttext/plain4159https://red.uao.edu.co/bitstreams/7fb18ad9-8195-426c-9f35-9d65727d23fd/download0275431bea02a36310fa33fb53439d79MD59THUMBNAILT08883.pdf.jpgT08883.pdf.jpgGenerated Thumbnailimage/jpeg6016https://red.uao.edu.co/bitstreams/247377d7-999a-435d-81c8-a6766d4895b0/download265b4a0b408c5315408ac9a46252181dMD58TA8883.pdf.jpgTA8883.pdf.jpgGenerated Thumbnailimage/jpeg13060https://red.uao.edu.co/bitstreams/d2800b78-f3c6-42fb-9f2b-a7d147aee90e/downloadf102bc0f0d671166831c9da3f28ffb29MD510CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8914https://red.uao.edu.co/bitstreams/5c026552-d44e-4d20-ad2e-93d0b609c33b/download24013099e9e6abb1575dc6ce0855efd5MD53LICENSElicense.txtlicense.txttext/plain; charset=utf-81665https://red.uao.edu.co/bitstreams/ee77e170-c38c-4493-b0b0-6aaa3843f748/download20b5ba22b1117f71589c7318baa2c560MD54ORIGINALT08883.pdfT08883.pdfapplication/pdf1257383https://red.uao.edu.co/bitstreams/fa088a10-6092-43d4-99d4-38dae045d33a/download1dd15e46060833fc21e67bdc1399c1e0MD55TA8883.pdfTA8883.pdfapplication/pdf97817https://red.uao.edu.co/bitstreams/a2f89ba6-bea5-476b-86b4-579c9e915fbf/download0035dc77fd0fb5f1c6e19b9d41553bc2MD5610614/11694oai:red.uao.edu.co:10614/116942024-03-07 16:47:40.801https://creativecommons.org/licenses/by-nc/4.0/Derechos Reservados - Universidad Autónoma de Occidenteopen.accesshttps://red.uao.edu.coRepositorio Digital Universidad Autonoma de Occidenterepositorio@uao.edu.coRUwgQVVUT1IgYXV0b3JpemEgYSBsYSBVbml2ZXJzaWRhZCBBdXTDs25vbWEgZGUgT2NjaWRlbnRlLCBkZSBmb3JtYSBpbmRlZmluaWRhLCBwYXJhIHF1ZSBlbiBsb3MgdMOpcm1pbm9zIGVzdGFibGVjaWRvcyBlbiBsYSBMZXkgMjMgZGUgMTk4MiwgbGEgTGV5IDQ0IGRlIDE5OTMsIGxhIERlY2lzacOzbiBhbmRpbmEgMzUxIGRlIDE5OTMsIGVsIERlY3JldG8gNDYwIGRlIDE5OTUgeSBkZW3DoXMgbGV5ZXMgeSBqdXJpc3BydWRlbmNpYSB2aWdlbnRlIGFsIHJlc3BlY3RvLCBoYWdhIHB1YmxpY2FjacOzbiBkZSBlc3RlIGNvbiBmaW5lcyBlZHVjYXRpdm9zLiBQQVJBR1JBRk86IEVzdGEgYXV0b3JpemFjacOzbiBhZGVtw6FzIGRlIHNlciB2w6FsaWRhIHBhcmEgbGFzIGZhY3VsdGFkZXMgeSBkZXJlY2hvcyBkZSB1c28gc29icmUgbGEgb2JyYSBlbiBmb3JtYXRvIG8gc29wb3J0ZSBtYXRlcmlhbCwgdGFtYmnDqW4gcGFyYSBmb3JtYXRvIGRpZ2l0YWwsIGVsZWN0csOzbmljbywgdmlydHVhbCwgcGFyYSB1c29zIGVuIHJlZCwgSW50ZXJuZXQsIGV4dHJhbmV0LCBpbnRyYW5ldCwgYmlibGlvdGVjYSBkaWdpdGFsIHkgZGVtw6FzIHBhcmEgY3VhbHF1aWVyIGZvcm1hdG8gY29ub2NpZG8gbyBwb3IgY29ub2Nlci4gRUwgQVVUT1IsIGV4cHJlc2EgcXVlIGVsIGRvY3VtZW50byAodHJhYmFqbyBkZSBncmFkbywgcGFzYW50w61hLCBjYXNvcyBvIHRlc2lzKSBvYmpldG8gZGUgbGEgcHJlc2VudGUgYXV0b3JpemFjacOzbiBlcyBvcmlnaW5hbCB5IGxhIGVsYWJvcsOzIHNpbiBxdWVicmFudGFyIG5pIHN1cGxhbnRhciBsb3MgZGVyZWNob3MgZGUgYXV0b3IgZGUgdGVyY2Vyb3MsIHkgZGUgdGFsIGZvcm1hLCBlbCBkb2N1bWVudG8gKHRyYWJham8gZGUgZ3JhZG8sIHBhc2FudMOtYSwgY2Fzb3MgbyB0ZXNpcykgZXMgZGUgc3UgZXhjbHVzaXZhIGF1dG9yw61hIHkgdGllbmUgbGEgdGl0dWxhcmlkYWQgc29icmUgw6lzdGUuIFBBUkFHUkFGTzogZW4gY2FzbyBkZSBwcmVzZW50YXJzZSBhbGd1bmEgcmVjbGFtYWNpw7NuIG8gYWNjacOzbiBwb3IgcGFydGUgZGUgdW4gdGVyY2VybywgcmVmZXJlbnRlIGEgbG9zIGRlcmVjaG9zIGRlIGF1dG9yIHNvYnJlIGVsIGRvY3VtZW50byAoVHJhYmFqbyBkZSBncmFkbywgUGFzYW50w61hLCBjYXNvcyBvIHRlc2lzKSBlbiBjdWVzdGnDs24sIEVMIEFVVE9SLCBhc3VtaXLDoSBsYSByZXNwb25zYWJpbGlkYWQgdG90YWwsIHkgc2FsZHLDoSBlbiBkZWZlbnNhIGRlIGxvcyBkZXJlY2hvcyBhcXXDrSBhdXRvcml6YWRvczsgcGFyYSB0b2RvcyBsb3MgZWZlY3RvcywgbGEgVW5pdmVyc2lkYWQgIEF1dMOzbm9tYSBkZSBPY2NpZGVudGUgYWN0w7phIGNvbW8gdW4gdGVyY2VybyBkZSBidWVuYSBmZS4gVG9kYSBwZXJzb25hIHF1ZSBjb25zdWx0ZSB5YSBzZWEgZW4gbGEgYmlibGlvdGVjYSBvIGVuIG1lZGlvIGVsZWN0csOzbmljbyBwb2Ryw6EgY29waWFyIGFwYXJ0ZXMgZGVsIHRleHRvIGNpdGFuZG8gc2llbXByZSBsYSBmdWVudGUsIGVzIGRlY2lyIGVsIHTDrXR1bG8gZGVsIHRyYWJham8geSBlbCBhdXRvci4gRXN0YSBhdXRvcml6YWNpw7NuIG5vIGltcGxpY2EgcmVudW5jaWEgYSBsYSBmYWN1bHRhZCBxdWUgdGllbmUgRUwgQVVUT1IgZGUgcHVibGljYXIgdG90YWwgbyBwYXJjaWFsbWVudGUgbGEgb2JyYS4K

Aprendizaje por refuerzo para control de sistemas dinámicos

Publicaciones similares