Multi-agent reinforcement learning, theory and application

Actualmente las metodologías relacionadas con machine learning han tenido un gran auge dentro del desarrollo de proyectos, y se están abriendo un camino en la solución de problemas de la vida diaria. Pero en muchos casos se están implementando a problemas en donde se utilizan métodos matemáticos ant...

Full description

Autores:
Vargas Panesso, José Vicente
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
2022
Institución:
Universidad de los Andes
Repositorio:
Séneca: repositorio Uniandes
Idioma:
spa
OAI Identifier:
oai:repositorio.uniandes.edu.co:1992/59191
Acceso en línea:
http://hdl.handle.net/1992/59191
Palabra clave:
Reinforcement learning
Teoría de juegos
Asignación dinámica de recursos
Replicators dynamics
Multi-agent reinforcement learning
Ingeniería
Rights
openAccess
License
Attribution-NonCommercial-NoDerivatives 4.0 Internacional
id UNIANDES2_808e9957c379715cd16e2c7ac6cddef7
oai_identifier_str oai:repositorio.uniandes.edu.co:1992/59191
network_acronym_str UNIANDES2
network_name_str Séneca: repositorio Uniandes
repository_id_str
dc.title.none.fl_str_mv Multi-agent reinforcement learning, theory and application
dc.title.alternative.none.fl_str_mv Multi agent reinforcement learning, theory and application
title Multi-agent reinforcement learning, theory and application
spellingShingle Multi-agent reinforcement learning, theory and application
Reinforcement learning
Teoría de juegos
Asignación dinámica de recursos
Replicators dynamics
Multi-agent reinforcement learning
Ingeniería
title_short Multi-agent reinforcement learning, theory and application
title_full Multi-agent reinforcement learning, theory and application
title_fullStr Multi-agent reinforcement learning, theory and application
title_full_unstemmed Multi-agent reinforcement learning, theory and application
title_sort Multi-agent reinforcement learning, theory and application
dc.creator.fl_str_mv Vargas Panesso, José Vicente
dc.contributor.advisor.none.fl_str_mv Quijano Silva, Nicanor
dc.contributor.author.none.fl_str_mv Vargas Panesso, José Vicente
dc.contributor.jury.none.fl_str_mv Zambrano Jacobo, Andrés Felipe
dc.contributor.researchgroup.es_CO.fl_str_mv Grupo de investigación en automatización para la producción
dc.subject.keyword.none.fl_str_mv Reinforcement learning
Teoría de juegos
Asignación dinámica de recursos
Replicators dynamics
Multi-agent reinforcement learning
topic Reinforcement learning
Teoría de juegos
Asignación dinámica de recursos
Replicators dynamics
Multi-agent reinforcement learning
Ingeniería
dc.subject.themes.es_CO.fl_str_mv Ingeniería
description Actualmente las metodologías relacionadas con machine learning han tenido un gran auge dentro del desarrollo de proyectos, y se están abriendo un camino en la solución de problemas de la vida diaria. Pero en muchos casos se están implementando a problemas en donde se utilizan métodos matemáticos antiguos que se han venido desarrollando por muchos años. Específicamente, en este trabajo se tratará la metodología de Multi-agent Reinforcement learning, la cual es una rama del Reinforcement learning en la cual un agente no aprende su comportamiento sobre un ambiente estático, sino sobre un ambiente variante en relación a decisiones tomadas por otros agentes. Es este comportamiento el que lo vuelve un sistema muy parecido a un population game, en el cual distintos agentes deben interactuar entre sí con el objetivo de llegar a una decisión óptima para cada uno, o el denominado equilibrio de Nash. Es debido a estas similitudes de conceptos y de propósito, que en este trabajo se compararan algunos de los comportamientos esenciales de estas metodologías, para poder apreciar sus diferencias de comportamiento, sus conjunciones, y más aún los posibles elementos que cada una le puede llegar a ofrecer a la otra.
publishDate 2022
dc.date.accessioned.none.fl_str_mv 2022-07-26T18:27:46Z
dc.date.available.none.fl_str_mv 2022-07-26T18:27:46Z
dc.date.issued.none.fl_str_mv 2022-06-29
dc.type.es_CO.fl_str_mv Trabajo de grado - Pregrado
dc.type.driver.none.fl_str_mv info:eu-repo/semantics/bachelorThesis
dc.type.version.none.fl_str_mv info:eu-repo/semantics/acceptedVersion
dc.type.coar.none.fl_str_mv http://purl.org/coar/resource_type/c_7a1f
dc.type.content.es_CO.fl_str_mv Text
dc.type.redcol.none.fl_str_mv http://purl.org/redcol/resource_type/TP
format http://purl.org/coar/resource_type/c_7a1f
status_str acceptedVersion
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/1992/59191
dc.identifier.instname.es_CO.fl_str_mv instname:Universidad de los Andes
dc.identifier.reponame.es_CO.fl_str_mv reponame:Repositorio Institucional Séneca
dc.identifier.repourl.es_CO.fl_str_mv repourl:https://repositorio.uniandes.edu.co/
url http://hdl.handle.net/1992/59191
identifier_str_mv instname:Universidad de los Andes
reponame:Repositorio Institucional Séneca
repourl:https://repositorio.uniandes.edu.co/
dc.language.iso.es_CO.fl_str_mv spa
language spa
dc.relation.references.es_CO.fl_str_mv R. S. Sutton and A. G. Barto, Reinforcement Learning: An Introduction. Cambridge, MA, USA: A Bradford Book, 2018.
S. J. Johnston, P. J. Basford, C. S. Perkins, H. Herry, F. P. Tso, D. Pezaros, R. D. Mullins, E. Yoneki, S. J. Cox, and J. Singer, Commodity single board computer clusters and their applications,¿ Future Generation Computer Systems, vol. 89, pp. 201-212, 2018. [Online]. Available: https://www.sciencedirect.com/science/article/pii/S0167739X18301833
M. Schaarschmidt, F. Gessert, V. Dalibard, and E. Yoneki, Learning runtime parameters in computer systems with delayed experience injection, 2016. [Online]. Available: https://arxiv.org/abs/1610.09903
V. de Carvalho Neiva Pinheiro, A. L. Francato, and W. B. Powell, Reinforcement learning for electricity dispatch in grids with high intermittent generation and energy storage systems: A case study for the brazilian grid, International Journal of Energy Research, vol. 44, no. 11, pp. 8635-8653, 2020. [Online]. Available: https://onlinelibrary.wiley.com/doi/abs/10.1002/er.5551
A. Chandra, W. Gong, and P. Shenoy, ¿Dynamic resource allocation for shared data centers using online measurements, in Proceedings of the 2003 ACM SIGMETRICS International Conference on Measurement and Modeling of Computer Systems, ser. SIGMETRICS 03. New York, NY, USA: Association for Computing Machinery, 2003, p. 300-301. [Online]. Available: https://doi.org/10.1145/781027.781067
dc.rights.license.spa.fl_str_mv Attribution-NonCommercial-NoDerivatives 4.0 Internacional
dc.rights.uri.*.fl_str_mv https://repositorio.uniandes.edu.co/static/pdf/aceptacion_uso_es.pdf
dc.rights.accessrights.spa.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.coar.spa.fl_str_mv http://purl.org/coar/access_right/c_abf2
rights_invalid_str_mv Attribution-NonCommercial-NoDerivatives 4.0 Internacional
https://repositorio.uniandes.edu.co/static/pdf/aceptacion_uso_es.pdf
http://purl.org/coar/access_right/c_abf2
eu_rights_str_mv openAccess
dc.format.extent.es_CO.fl_str_mv 38 páginas
dc.format.mimetype.es_CO.fl_str_mv application/pdf
dc.publisher.es_CO.fl_str_mv Universidad de los Andes
dc.publisher.program.es_CO.fl_str_mv Ingeniería Electrónica
dc.publisher.faculty.es_CO.fl_str_mv Facultad de Ingeniería
dc.publisher.department.es_CO.fl_str_mv Departamento de Ingeniería Eléctrica y Electrónica
institution Universidad de los Andes
bitstream.url.fl_str_mv https://repositorio.uniandes.edu.co/bitstreams/d3f22ed6-a279-4ba4-be0b-130bd9b0c37d/download
https://repositorio.uniandes.edu.co/bitstreams/5842b793-3688-41de-9531-42fb42e7b5fd/download
https://repositorio.uniandes.edu.co/bitstreams/1d5b9fdf-19fe-4189-81ac-e3188edef8ac/download
https://repositorio.uniandes.edu.co/bitstreams/aaf8c780-7411-4e04-9068-e449602cab57/download
https://repositorio.uniandes.edu.co/bitstreams/fc6c3e3b-5e17-4637-9767-c6c3da723fea/download
https://repositorio.uniandes.edu.co/bitstreams/739c2bd5-870d-49a5-9748-428a08065c7e/download
https://repositorio.uniandes.edu.co/bitstreams/4ba901dc-a5f6-4131-ba2f-675203aa1be8/download
bitstream.checksum.fl_str_mv 2485cc3dc2cb03cda8c4e7da23f3c84e
58d26afedb9602eb10c17ba014dc80dd
5aa5c691a1ffe97abd12c2966efcb8d6
6e6aca21813b389403e11dc021a12747
041c0ffa1212b6d5f52a72643703900b
4781ec9654cdc6938c571dc65fb55568
4491fe1afb58beaaef41a73cf7ff2e27
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio institucional Séneca
repository.mail.fl_str_mv adminrepositorio@uniandes.edu.co
_version_ 1812133953142784000
spelling Attribution-NonCommercial-NoDerivatives 4.0 Internacionalhttps://repositorio.uniandes.edu.co/static/pdf/aceptacion_uso_es.pdfinfo:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Quijano Silva, Nicanorvirtual::9758-1Vargas Panesso, José Vicenteddbdc004-1968-442b-b27c-ed6cd44aaf6e600Zambrano Jacobo, Andrés FelipeGrupo de investigación en automatización para la producción2022-07-26T18:27:46Z2022-07-26T18:27:46Z2022-06-29http://hdl.handle.net/1992/59191instname:Universidad de los Andesreponame:Repositorio Institucional Sénecarepourl:https://repositorio.uniandes.edu.co/Actualmente las metodologías relacionadas con machine learning han tenido un gran auge dentro del desarrollo de proyectos, y se están abriendo un camino en la solución de problemas de la vida diaria. Pero en muchos casos se están implementando a problemas en donde se utilizan métodos matemáticos antiguos que se han venido desarrollando por muchos años. Específicamente, en este trabajo se tratará la metodología de Multi-agent Reinforcement learning, la cual es una rama del Reinforcement learning en la cual un agente no aprende su comportamiento sobre un ambiente estático, sino sobre un ambiente variante en relación a decisiones tomadas por otros agentes. Es este comportamiento el que lo vuelve un sistema muy parecido a un population game, en el cual distintos agentes deben interactuar entre sí con el objetivo de llegar a una decisión óptima para cada uno, o el denominado equilibrio de Nash. Es debido a estas similitudes de conceptos y de propósito, que en este trabajo se compararan algunos de los comportamientos esenciales de estas metodologías, para poder apreciar sus diferencias de comportamiento, sus conjunciones, y más aún los posibles elementos que cada una le puede llegar a ofrecer a la otra.Ingeniero ElectrónicoPregradoControlMachine learning38 páginasapplication/pdfspaUniversidad de los AndesIngeniería ElectrónicaFacultad de IngenieríaDepartamento de Ingeniería Eléctrica y ElectrónicaMulti-agent reinforcement learning, theory and applicationMulti agent reinforcement learning, theory and applicationTrabajo de grado - Pregradoinfo:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/acceptedVersionhttp://purl.org/coar/resource_type/c_7a1fTexthttp://purl.org/redcol/resource_type/TPReinforcement learningTeoría de juegosAsignación dinámica de recursosReplicators dynamicsMulti-agent reinforcement learningIngenieríaR. S. Sutton and A. G. Barto, Reinforcement Learning: An Introduction. Cambridge, MA, USA: A Bradford Book, 2018.S. J. Johnston, P. J. Basford, C. S. Perkins, H. Herry, F. P. Tso, D. Pezaros, R. D. Mullins, E. Yoneki, S. J. Cox, and J. Singer, Commodity single board computer clusters and their applications,¿ Future Generation Computer Systems, vol. 89, pp. 201-212, 2018. [Online]. Available: https://www.sciencedirect.com/science/article/pii/S0167739X18301833M. Schaarschmidt, F. Gessert, V. Dalibard, and E. Yoneki, Learning runtime parameters in computer systems with delayed experience injection, 2016. [Online]. Available: https://arxiv.org/abs/1610.09903V. de Carvalho Neiva Pinheiro, A. L. Francato, and W. B. Powell, Reinforcement learning for electricity dispatch in grids with high intermittent generation and energy storage systems: A case study for the brazilian grid, International Journal of Energy Research, vol. 44, no. 11, pp. 8635-8653, 2020. [Online]. Available: https://onlinelibrary.wiley.com/doi/abs/10.1002/er.5551A. Chandra, W. Gong, and P. Shenoy, ¿Dynamic resource allocation for shared data centers using online measurements, in Proceedings of the 2003 ACM SIGMETRICS International Conference on Measurement and Modeling of Computer Systems, ser. SIGMETRICS 03. New York, NY, USA: Association for Computing Machinery, 2003, p. 300-301. [Online]. Available: https://doi.org/10.1145/781027.781067201815601Publicationhttps://scholar.google.es/citations?user=xu0jdYAAAAAJvirtual::9758-10000-0002-8688-3195virtual::9758-1https://scienti.minciencias.gov.co/cvlac/visualizador/generarCurriculoCv.do?cod_rh=0000849669virtual::9758-1698e35fc-6e9e-4c84-8960-ae30da9bc64avirtual::9758-1698e35fc-6e9e-4c84-8960-ae30da9bc64avirtual::9758-1ORIGINALDocumento final Proyecto_de_grado_MARL theory and application.pdfDocumento final Proyecto_de_grado_MARL theory and application.pdfTrabajo de gradoapplication/pdf1775314https://repositorio.uniandes.edu.co/bitstreams/d3f22ed6-a279-4ba4-be0b-130bd9b0c37d/download2485cc3dc2cb03cda8c4e7da23f3c84eMD53Formato autorización y entrega de trabajo de grado- Jose Vicente Vargas Panesso.pdfFormato autorización y entrega de trabajo de grado- Jose Vicente Vargas Panesso.pdfHIDEapplication/pdf221540https://repositorio.uniandes.edu.co/bitstreams/5842b793-3688-41de-9531-42fb42e7b5fd/download58d26afedb9602eb10c17ba014dc80ddMD52LICENSElicense.txtlicense.txttext/plain; charset=utf-81810https://repositorio.uniandes.edu.co/bitstreams/1d5b9fdf-19fe-4189-81ac-e3188edef8ac/download5aa5c691a1ffe97abd12c2966efcb8d6MD54THUMBNAILDocumento final Proyecto_de_grado_MARL theory and application.pdf.jpgDocumento final Proyecto_de_grado_MARL theory and application.pdf.jpgIM Thumbnailimage/jpeg6265https://repositorio.uniandes.edu.co/bitstreams/aaf8c780-7411-4e04-9068-e449602cab57/download6e6aca21813b389403e11dc021a12747MD56Formato autorización y entrega de trabajo de grado- Jose Vicente Vargas Panesso.pdf.jpgFormato autorización y entrega de trabajo de grado- Jose Vicente Vargas Panesso.pdf.jpgIM Thumbnailimage/jpeg16150https://repositorio.uniandes.edu.co/bitstreams/fc6c3e3b-5e17-4637-9767-c6c3da723fea/download041c0ffa1212b6d5f52a72643703900bMD58TEXTDocumento final Proyecto_de_grado_MARL theory and application.pdf.txtDocumento final Proyecto_de_grado_MARL theory and application.pdf.txtExtracted texttext/plain65362https://repositorio.uniandes.edu.co/bitstreams/739c2bd5-870d-49a5-9748-428a08065c7e/download4781ec9654cdc6938c571dc65fb55568MD55Formato autorización y entrega de trabajo de grado- Jose Vicente Vargas Panesso.pdf.txtFormato autorización y entrega de trabajo de grado- Jose Vicente Vargas Panesso.pdf.txtExtracted texttext/plain1163https://repositorio.uniandes.edu.co/bitstreams/4ba901dc-a5f6-4131-ba2f-675203aa1be8/download4491fe1afb58beaaef41a73cf7ff2e27MD571992/59191oai:repositorio.uniandes.edu.co:1992/591912024-03-13 14:00:58.639https://repositorio.uniandes.edu.co/static/pdf/aceptacion_uso_es.pdfopen.accesshttps://repositorio.uniandes.edu.coRepositorio institucional Sénecaadminrepositorio@uniandes.edu.coWW8sIGVuIG1pIGNhbGlkYWQgZGUgYXV0b3IgZGVsIHRyYWJham8gZGUgdGVzaXMsIG1vbm9ncmFmw61hIG8gdHJhYmFqbyBkZSBncmFkbywgaGFnbyBlbnRyZWdhIGRlbCBlamVtcGxhciByZXNwZWN0aXZvIHkgZGUgc3VzIGFuZXhvcyBkZSBzZXIgZWwgY2FzbywgZW4gZm9ybWF0byBkaWdpdGFsIHkvbyBlbGVjdHLDs25pY28geSBhdXRvcml6byBhIGxhIFVuaXZlcnNpZGFkIGRlIGxvcyBBbmRlcyBwYXJhIHF1ZSByZWFsaWNlIGxhIHB1YmxpY2FjacOzbiBlbiBlbCBTaXN0ZW1hIGRlIEJpYmxpb3RlY2FzIG8gZW4gY3VhbHF1aWVyIG90cm8gc2lzdGVtYSBvIGJhc2UgZGUgZGF0b3MgcHJvcGlvIG8gYWplbm8gYSBsYSBVbml2ZXJzaWRhZCB5IHBhcmEgcXVlIGVuIGxvcyB0w6lybWlub3MgZXN0YWJsZWNpZG9zIGVuIGxhIExleSAyMyBkZSAxOTgyLCBMZXkgNDQgZGUgMTk5MywgRGVjaXNpw7NuIEFuZGluYSAzNTEgZGUgMTk5MywgRGVjcmV0byA0NjAgZGUgMTk5NSB5IGRlbcOhcyBub3JtYXMgZ2VuZXJhbGVzIHNvYnJlIGxhIG1hdGVyaWEsIHV0aWxpY2UgZW4gdG9kYXMgc3VzIGZvcm1hcywgbG9zIGRlcmVjaG9zIHBhdHJpbW9uaWFsZXMgZGUgcmVwcm9kdWNjacOzbiwgY29tdW5pY2FjacOzbiBww7pibGljYSwgdHJhbnNmb3JtYWNpw7NuIHkgZGlzdHJpYnVjacOzbiAoYWxxdWlsZXIsIHByw6lzdGFtbyBww7pibGljbyBlIGltcG9ydGFjacOzbikgcXVlIG1lIGNvcnJlc3BvbmRlbiBjb21vIGNyZWFkb3IgZGUgbGEgb2JyYSBvYmpldG8gZGVsIHByZXNlbnRlIGRvY3VtZW50by4gIAoKCkxhIHByZXNlbnRlIGF1dG9yaXphY2nDs24gc2UgZW1pdGUgZW4gY2FsaWRhZCBkZSBhdXRvciBkZSBsYSBvYnJhIG9iamV0byBkZWwgcHJlc2VudGUgZG9jdW1lbnRvIHkgbm8gY29ycmVzcG9uZGUgYSBjZXNpw7NuIGRlIGRlcmVjaG9zLCBzaW5vIGEgbGEgYXV0b3JpemFjacOzbiBkZSB1c28gYWNhZMOpbWljbyBkZSBjb25mb3JtaWRhZCBjb24gbG8gYW50ZXJpb3JtZW50ZSBzZcOxYWxhZG8uIExhIHByZXNlbnRlIGF1dG9yaXphY2nDs24gc2UgaGFjZSBleHRlbnNpdmEgbm8gc29sbyBhIGxhcyBmYWN1bHRhZGVzIHkgZGVyZWNob3MgZGUgdXNvIHNvYnJlIGxhIG9icmEgZW4gZm9ybWF0byBvIHNvcG9ydGUgbWF0ZXJpYWwsIHNpbm8gdGFtYmnDqW4gcGFyYSBmb3JtYXRvIGVsZWN0csOzbmljbywgeSBlbiBnZW5lcmFsIHBhcmEgY3VhbHF1aWVyIGZvcm1hdG8gY29ub2NpZG8gbyBwb3IgY29ub2Nlci4gCgoKRWwgYXV0b3IsIG1hbmlmaWVzdGEgcXVlIGxhIG9icmEgb2JqZXRvIGRlIGxhIHByZXNlbnRlIGF1dG9yaXphY2nDs24gZXMgb3JpZ2luYWwgeSBsYSByZWFsaXrDsyBzaW4gdmlvbGFyIG8gdXN1cnBhciBkZXJlY2hvcyBkZSBhdXRvciBkZSB0ZXJjZXJvcywgcG9yIGxvIHRhbnRvLCBsYSBvYnJhIGVzIGRlIHN1IGV4Y2x1c2l2YSBhdXRvcsOtYSB5IHRpZW5lIGxhIHRpdHVsYXJpZGFkIHNvYnJlIGxhIG1pc21hLiAKCgpFbiBjYXNvIGRlIHByZXNlbnRhcnNlIGN1YWxxdWllciByZWNsYW1hY2nDs24gbyBhY2Npw7NuIHBvciBwYXJ0ZSBkZSB1biB0ZXJjZXJvIGVuIGN1YW50byBhIGxvcyBkZXJlY2hvcyBkZSBhdXRvciBzb2JyZSBsYSBvYnJhIGVuIGN1ZXN0acOzbiwgZWwgYXV0b3IgYXN1bWlyw6EgdG9kYSBsYSByZXNwb25zYWJpbGlkYWQsIHkgc2FsZHLDoSBkZSBkZWZlbnNhIGRlIGxvcyBkZXJlY2hvcyBhcXXDrSBhdXRvcml6YWRvcywgcGFyYSB0b2RvcyBsb3MgZWZlY3RvcyBsYSBVbml2ZXJzaWRhZCBhY3TDumEgY29tbyB1biB0ZXJjZXJvIGRlIGJ1ZW5hIGZlLiAKCg==