Multi-agent reinforcement learning, theory and application
Actualmente las metodologías relacionadas con machine learning han tenido un gran auge dentro del desarrollo de proyectos, y se están abriendo un camino en la solución de problemas de la vida diaria. Pero en muchos casos se están implementando a problemas en donde se utilizan métodos matemáticos ant...
- Autores:
-
Vargas Panesso, José Vicente
- Tipo de recurso:
- Trabajo de grado de pregrado
- Fecha de publicación:
- 2022
- Institución:
- Universidad de los Andes
- Repositorio:
- Séneca: repositorio Uniandes
- Idioma:
- spa
- OAI Identifier:
- oai:repositorio.uniandes.edu.co:1992/59191
- Acceso en línea:
- http://hdl.handle.net/1992/59191
- Palabra clave:
- Reinforcement learning
Teoría de juegos
Asignación dinámica de recursos
Replicators dynamics
Multi-agent reinforcement learning
Ingeniería
- Rights
- openAccess
- License
- Attribution-NonCommercial-NoDerivatives 4.0 Internacional
id |
UNIANDES2_808e9957c379715cd16e2c7ac6cddef7 |
---|---|
oai_identifier_str |
oai:repositorio.uniandes.edu.co:1992/59191 |
network_acronym_str |
UNIANDES2 |
network_name_str |
Séneca: repositorio Uniandes |
repository_id_str |
|
dc.title.none.fl_str_mv |
Multi-agent reinforcement learning, theory and application |
dc.title.alternative.none.fl_str_mv |
Multi agent reinforcement learning, theory and application |
title |
Multi-agent reinforcement learning, theory and application |
spellingShingle |
Multi-agent reinforcement learning, theory and application Reinforcement learning Teoría de juegos Asignación dinámica de recursos Replicators dynamics Multi-agent reinforcement learning Ingeniería |
title_short |
Multi-agent reinforcement learning, theory and application |
title_full |
Multi-agent reinforcement learning, theory and application |
title_fullStr |
Multi-agent reinforcement learning, theory and application |
title_full_unstemmed |
Multi-agent reinforcement learning, theory and application |
title_sort |
Multi-agent reinforcement learning, theory and application |
dc.creator.fl_str_mv |
Vargas Panesso, José Vicente |
dc.contributor.advisor.none.fl_str_mv |
Quijano Silva, Nicanor |
dc.contributor.author.none.fl_str_mv |
Vargas Panesso, José Vicente |
dc.contributor.jury.none.fl_str_mv |
Zambrano Jacobo, Andrés Felipe |
dc.contributor.researchgroup.es_CO.fl_str_mv |
Grupo de investigación en automatización para la producción |
dc.subject.keyword.none.fl_str_mv |
Reinforcement learning Teoría de juegos Asignación dinámica de recursos Replicators dynamics Multi-agent reinforcement learning |
topic |
Reinforcement learning Teoría de juegos Asignación dinámica de recursos Replicators dynamics Multi-agent reinforcement learning Ingeniería |
dc.subject.themes.es_CO.fl_str_mv |
Ingeniería |
description |
Actualmente las metodologías relacionadas con machine learning han tenido un gran auge dentro del desarrollo de proyectos, y se están abriendo un camino en la solución de problemas de la vida diaria. Pero en muchos casos se están implementando a problemas en donde se utilizan métodos matemáticos antiguos que se han venido desarrollando por muchos años. Específicamente, en este trabajo se tratará la metodología de Multi-agent Reinforcement learning, la cual es una rama del Reinforcement learning en la cual un agente no aprende su comportamiento sobre un ambiente estático, sino sobre un ambiente variante en relación a decisiones tomadas por otros agentes. Es este comportamiento el que lo vuelve un sistema muy parecido a un population game, en el cual distintos agentes deben interactuar entre sí con el objetivo de llegar a una decisión óptima para cada uno, o el denominado equilibrio de Nash. Es debido a estas similitudes de conceptos y de propósito, que en este trabajo se compararan algunos de los comportamientos esenciales de estas metodologías, para poder apreciar sus diferencias de comportamiento, sus conjunciones, y más aún los posibles elementos que cada una le puede llegar a ofrecer a la otra. |
publishDate |
2022 |
dc.date.accessioned.none.fl_str_mv |
2022-07-26T18:27:46Z |
dc.date.available.none.fl_str_mv |
2022-07-26T18:27:46Z |
dc.date.issued.none.fl_str_mv |
2022-06-29 |
dc.type.es_CO.fl_str_mv |
Trabajo de grado - Pregrado |
dc.type.driver.none.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
dc.type.version.none.fl_str_mv |
info:eu-repo/semantics/acceptedVersion |
dc.type.coar.none.fl_str_mv |
http://purl.org/coar/resource_type/c_7a1f |
dc.type.content.es_CO.fl_str_mv |
Text |
dc.type.redcol.none.fl_str_mv |
http://purl.org/redcol/resource_type/TP |
format |
http://purl.org/coar/resource_type/c_7a1f |
status_str |
acceptedVersion |
dc.identifier.uri.none.fl_str_mv |
http://hdl.handle.net/1992/59191 |
dc.identifier.instname.es_CO.fl_str_mv |
instname:Universidad de los Andes |
dc.identifier.reponame.es_CO.fl_str_mv |
reponame:Repositorio Institucional Séneca |
dc.identifier.repourl.es_CO.fl_str_mv |
repourl:https://repositorio.uniandes.edu.co/ |
url |
http://hdl.handle.net/1992/59191 |
identifier_str_mv |
instname:Universidad de los Andes reponame:Repositorio Institucional Séneca repourl:https://repositorio.uniandes.edu.co/ |
dc.language.iso.es_CO.fl_str_mv |
spa |
language |
spa |
dc.relation.references.es_CO.fl_str_mv |
R. S. Sutton and A. G. Barto, Reinforcement Learning: An Introduction. Cambridge, MA, USA: A Bradford Book, 2018. S. J. Johnston, P. J. Basford, C. S. Perkins, H. Herry, F. P. Tso, D. Pezaros, R. D. Mullins, E. Yoneki, S. J. Cox, and J. Singer, Commodity single board computer clusters and their applications,¿ Future Generation Computer Systems, vol. 89, pp. 201-212, 2018. [Online]. Available: https://www.sciencedirect.com/science/article/pii/S0167739X18301833 M. Schaarschmidt, F. Gessert, V. Dalibard, and E. Yoneki, Learning runtime parameters in computer systems with delayed experience injection, 2016. [Online]. Available: https://arxiv.org/abs/1610.09903 V. de Carvalho Neiva Pinheiro, A. L. Francato, and W. B. Powell, Reinforcement learning for electricity dispatch in grids with high intermittent generation and energy storage systems: A case study for the brazilian grid, International Journal of Energy Research, vol. 44, no. 11, pp. 8635-8653, 2020. [Online]. Available: https://onlinelibrary.wiley.com/doi/abs/10.1002/er.5551 A. Chandra, W. Gong, and P. Shenoy, ¿Dynamic resource allocation for shared data centers using online measurements, in Proceedings of the 2003 ACM SIGMETRICS International Conference on Measurement and Modeling of Computer Systems, ser. SIGMETRICS 03. New York, NY, USA: Association for Computing Machinery, 2003, p. 300-301. [Online]. Available: https://doi.org/10.1145/781027.781067 |
dc.rights.license.spa.fl_str_mv |
Attribution-NonCommercial-NoDerivatives 4.0 Internacional |
dc.rights.uri.*.fl_str_mv |
https://repositorio.uniandes.edu.co/static/pdf/aceptacion_uso_es.pdf |
dc.rights.accessrights.spa.fl_str_mv |
info:eu-repo/semantics/openAccess |
dc.rights.coar.spa.fl_str_mv |
http://purl.org/coar/access_right/c_abf2 |
rights_invalid_str_mv |
Attribution-NonCommercial-NoDerivatives 4.0 Internacional https://repositorio.uniandes.edu.co/static/pdf/aceptacion_uso_es.pdf http://purl.org/coar/access_right/c_abf2 |
eu_rights_str_mv |
openAccess |
dc.format.extent.es_CO.fl_str_mv |
38 páginas |
dc.format.mimetype.es_CO.fl_str_mv |
application/pdf |
dc.publisher.es_CO.fl_str_mv |
Universidad de los Andes |
dc.publisher.program.es_CO.fl_str_mv |
Ingeniería Electrónica |
dc.publisher.faculty.es_CO.fl_str_mv |
Facultad de Ingeniería |
dc.publisher.department.es_CO.fl_str_mv |
Departamento de Ingeniería Eléctrica y Electrónica |
institution |
Universidad de los Andes |
bitstream.url.fl_str_mv |
https://repositorio.uniandes.edu.co/bitstreams/d3f22ed6-a279-4ba4-be0b-130bd9b0c37d/download https://repositorio.uniandes.edu.co/bitstreams/5842b793-3688-41de-9531-42fb42e7b5fd/download https://repositorio.uniandes.edu.co/bitstreams/1d5b9fdf-19fe-4189-81ac-e3188edef8ac/download https://repositorio.uniandes.edu.co/bitstreams/aaf8c780-7411-4e04-9068-e449602cab57/download https://repositorio.uniandes.edu.co/bitstreams/fc6c3e3b-5e17-4637-9767-c6c3da723fea/download https://repositorio.uniandes.edu.co/bitstreams/739c2bd5-870d-49a5-9748-428a08065c7e/download https://repositorio.uniandes.edu.co/bitstreams/4ba901dc-a5f6-4131-ba2f-675203aa1be8/download |
bitstream.checksum.fl_str_mv |
2485cc3dc2cb03cda8c4e7da23f3c84e 58d26afedb9602eb10c17ba014dc80dd 5aa5c691a1ffe97abd12c2966efcb8d6 6e6aca21813b389403e11dc021a12747 041c0ffa1212b6d5f52a72643703900b 4781ec9654cdc6938c571dc65fb55568 4491fe1afb58beaaef41a73cf7ff2e27 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositorio institucional Séneca |
repository.mail.fl_str_mv |
adminrepositorio@uniandes.edu.co |
_version_ |
1812133953142784000 |
spelling |
Attribution-NonCommercial-NoDerivatives 4.0 Internacionalhttps://repositorio.uniandes.edu.co/static/pdf/aceptacion_uso_es.pdfinfo:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Quijano Silva, Nicanorvirtual::9758-1Vargas Panesso, José Vicenteddbdc004-1968-442b-b27c-ed6cd44aaf6e600Zambrano Jacobo, Andrés FelipeGrupo de investigación en automatización para la producción2022-07-26T18:27:46Z2022-07-26T18:27:46Z2022-06-29http://hdl.handle.net/1992/59191instname:Universidad de los Andesreponame:Repositorio Institucional Sénecarepourl:https://repositorio.uniandes.edu.co/Actualmente las metodologías relacionadas con machine learning han tenido un gran auge dentro del desarrollo de proyectos, y se están abriendo un camino en la solución de problemas de la vida diaria. Pero en muchos casos se están implementando a problemas en donde se utilizan métodos matemáticos antiguos que se han venido desarrollando por muchos años. Específicamente, en este trabajo se tratará la metodología de Multi-agent Reinforcement learning, la cual es una rama del Reinforcement learning en la cual un agente no aprende su comportamiento sobre un ambiente estático, sino sobre un ambiente variante en relación a decisiones tomadas por otros agentes. Es este comportamiento el que lo vuelve un sistema muy parecido a un population game, en el cual distintos agentes deben interactuar entre sí con el objetivo de llegar a una decisión óptima para cada uno, o el denominado equilibrio de Nash. Es debido a estas similitudes de conceptos y de propósito, que en este trabajo se compararan algunos de los comportamientos esenciales de estas metodologías, para poder apreciar sus diferencias de comportamiento, sus conjunciones, y más aún los posibles elementos que cada una le puede llegar a ofrecer a la otra.Ingeniero ElectrónicoPregradoControlMachine learning38 páginasapplication/pdfspaUniversidad de los AndesIngeniería ElectrónicaFacultad de IngenieríaDepartamento de Ingeniería Eléctrica y ElectrónicaMulti-agent reinforcement learning, theory and applicationMulti agent reinforcement learning, theory and applicationTrabajo de grado - Pregradoinfo:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/acceptedVersionhttp://purl.org/coar/resource_type/c_7a1fTexthttp://purl.org/redcol/resource_type/TPReinforcement learningTeoría de juegosAsignación dinámica de recursosReplicators dynamicsMulti-agent reinforcement learningIngenieríaR. S. Sutton and A. G. Barto, Reinforcement Learning: An Introduction. Cambridge, MA, USA: A Bradford Book, 2018.S. J. Johnston, P. J. Basford, C. S. Perkins, H. Herry, F. P. Tso, D. Pezaros, R. D. Mullins, E. Yoneki, S. J. Cox, and J. Singer, Commodity single board computer clusters and their applications,¿ Future Generation Computer Systems, vol. 89, pp. 201-212, 2018. [Online]. Available: https://www.sciencedirect.com/science/article/pii/S0167739X18301833M. Schaarschmidt, F. Gessert, V. Dalibard, and E. Yoneki, Learning runtime parameters in computer systems with delayed experience injection, 2016. [Online]. Available: https://arxiv.org/abs/1610.09903V. de Carvalho Neiva Pinheiro, A. L. Francato, and W. B. Powell, Reinforcement learning for electricity dispatch in grids with high intermittent generation and energy storage systems: A case study for the brazilian grid, International Journal of Energy Research, vol. 44, no. 11, pp. 8635-8653, 2020. [Online]. Available: https://onlinelibrary.wiley.com/doi/abs/10.1002/er.5551A. Chandra, W. Gong, and P. Shenoy, ¿Dynamic resource allocation for shared data centers using online measurements, in Proceedings of the 2003 ACM SIGMETRICS International Conference on Measurement and Modeling of Computer Systems, ser. SIGMETRICS 03. New York, NY, USA: Association for Computing Machinery, 2003, p. 300-301. [Online]. Available: https://doi.org/10.1145/781027.781067201815601Publicationhttps://scholar.google.es/citations?user=xu0jdYAAAAAJvirtual::9758-10000-0002-8688-3195virtual::9758-1https://scienti.minciencias.gov.co/cvlac/visualizador/generarCurriculoCv.do?cod_rh=0000849669virtual::9758-1698e35fc-6e9e-4c84-8960-ae30da9bc64avirtual::9758-1698e35fc-6e9e-4c84-8960-ae30da9bc64avirtual::9758-1ORIGINALDocumento final Proyecto_de_grado_MARL theory and application.pdfDocumento final Proyecto_de_grado_MARL theory and application.pdfTrabajo de gradoapplication/pdf1775314https://repositorio.uniandes.edu.co/bitstreams/d3f22ed6-a279-4ba4-be0b-130bd9b0c37d/download2485cc3dc2cb03cda8c4e7da23f3c84eMD53Formato autorización y entrega de trabajo de grado- Jose Vicente Vargas Panesso.pdfFormato autorización y entrega de trabajo de grado- Jose Vicente Vargas Panesso.pdfHIDEapplication/pdf221540https://repositorio.uniandes.edu.co/bitstreams/5842b793-3688-41de-9531-42fb42e7b5fd/download58d26afedb9602eb10c17ba014dc80ddMD52LICENSElicense.txtlicense.txttext/plain; charset=utf-81810https://repositorio.uniandes.edu.co/bitstreams/1d5b9fdf-19fe-4189-81ac-e3188edef8ac/download5aa5c691a1ffe97abd12c2966efcb8d6MD54THUMBNAILDocumento final Proyecto_de_grado_MARL theory and application.pdf.jpgDocumento final Proyecto_de_grado_MARL theory and application.pdf.jpgIM Thumbnailimage/jpeg6265https://repositorio.uniandes.edu.co/bitstreams/aaf8c780-7411-4e04-9068-e449602cab57/download6e6aca21813b389403e11dc021a12747MD56Formato autorización y entrega de trabajo de grado- Jose Vicente Vargas Panesso.pdf.jpgFormato autorización y entrega de trabajo de grado- Jose Vicente Vargas Panesso.pdf.jpgIM Thumbnailimage/jpeg16150https://repositorio.uniandes.edu.co/bitstreams/fc6c3e3b-5e17-4637-9767-c6c3da723fea/download041c0ffa1212b6d5f52a72643703900bMD58TEXTDocumento final Proyecto_de_grado_MARL theory and application.pdf.txtDocumento final Proyecto_de_grado_MARL theory and application.pdf.txtExtracted texttext/plain65362https://repositorio.uniandes.edu.co/bitstreams/739c2bd5-870d-49a5-9748-428a08065c7e/download4781ec9654cdc6938c571dc65fb55568MD55Formato autorización y entrega de trabajo de grado- Jose Vicente Vargas Panesso.pdf.txtFormato autorización y entrega de trabajo de grado- Jose Vicente Vargas Panesso.pdf.txtExtracted texttext/plain1163https://repositorio.uniandes.edu.co/bitstreams/4ba901dc-a5f6-4131-ba2f-675203aa1be8/download4491fe1afb58beaaef41a73cf7ff2e27MD571992/59191oai:repositorio.uniandes.edu.co:1992/591912024-03-13 14:00:58.639https://repositorio.uniandes.edu.co/static/pdf/aceptacion_uso_es.pdfopen.accesshttps://repositorio.uniandes.edu.coRepositorio institucional Sénecaadminrepositorio@uniandes.edu.coWW8sIGVuIG1pIGNhbGlkYWQgZGUgYXV0b3IgZGVsIHRyYWJham8gZGUgdGVzaXMsIG1vbm9ncmFmw61hIG8gdHJhYmFqbyBkZSBncmFkbywgaGFnbyBlbnRyZWdhIGRlbCBlamVtcGxhciByZXNwZWN0aXZvIHkgZGUgc3VzIGFuZXhvcyBkZSBzZXIgZWwgY2FzbywgZW4gZm9ybWF0byBkaWdpdGFsIHkvbyBlbGVjdHLDs25pY28geSBhdXRvcml6byBhIGxhIFVuaXZlcnNpZGFkIGRlIGxvcyBBbmRlcyBwYXJhIHF1ZSByZWFsaWNlIGxhIHB1YmxpY2FjacOzbiBlbiBlbCBTaXN0ZW1hIGRlIEJpYmxpb3RlY2FzIG8gZW4gY3VhbHF1aWVyIG90cm8gc2lzdGVtYSBvIGJhc2UgZGUgZGF0b3MgcHJvcGlvIG8gYWplbm8gYSBsYSBVbml2ZXJzaWRhZCB5IHBhcmEgcXVlIGVuIGxvcyB0w6lybWlub3MgZXN0YWJsZWNpZG9zIGVuIGxhIExleSAyMyBkZSAxOTgyLCBMZXkgNDQgZGUgMTk5MywgRGVjaXNpw7NuIEFuZGluYSAzNTEgZGUgMTk5MywgRGVjcmV0byA0NjAgZGUgMTk5NSB5IGRlbcOhcyBub3JtYXMgZ2VuZXJhbGVzIHNvYnJlIGxhIG1hdGVyaWEsIHV0aWxpY2UgZW4gdG9kYXMgc3VzIGZvcm1hcywgbG9zIGRlcmVjaG9zIHBhdHJpbW9uaWFsZXMgZGUgcmVwcm9kdWNjacOzbiwgY29tdW5pY2FjacOzbiBww7pibGljYSwgdHJhbnNmb3JtYWNpw7NuIHkgZGlzdHJpYnVjacOzbiAoYWxxdWlsZXIsIHByw6lzdGFtbyBww7pibGljbyBlIGltcG9ydGFjacOzbikgcXVlIG1lIGNvcnJlc3BvbmRlbiBjb21vIGNyZWFkb3IgZGUgbGEgb2JyYSBvYmpldG8gZGVsIHByZXNlbnRlIGRvY3VtZW50by4gIAoKCkxhIHByZXNlbnRlIGF1dG9yaXphY2nDs24gc2UgZW1pdGUgZW4gY2FsaWRhZCBkZSBhdXRvciBkZSBsYSBvYnJhIG9iamV0byBkZWwgcHJlc2VudGUgZG9jdW1lbnRvIHkgbm8gY29ycmVzcG9uZGUgYSBjZXNpw7NuIGRlIGRlcmVjaG9zLCBzaW5vIGEgbGEgYXV0b3JpemFjacOzbiBkZSB1c28gYWNhZMOpbWljbyBkZSBjb25mb3JtaWRhZCBjb24gbG8gYW50ZXJpb3JtZW50ZSBzZcOxYWxhZG8uIExhIHByZXNlbnRlIGF1dG9yaXphY2nDs24gc2UgaGFjZSBleHRlbnNpdmEgbm8gc29sbyBhIGxhcyBmYWN1bHRhZGVzIHkgZGVyZWNob3MgZGUgdXNvIHNvYnJlIGxhIG9icmEgZW4gZm9ybWF0byBvIHNvcG9ydGUgbWF0ZXJpYWwsIHNpbm8gdGFtYmnDqW4gcGFyYSBmb3JtYXRvIGVsZWN0csOzbmljbywgeSBlbiBnZW5lcmFsIHBhcmEgY3VhbHF1aWVyIGZvcm1hdG8gY29ub2NpZG8gbyBwb3IgY29ub2Nlci4gCgoKRWwgYXV0b3IsIG1hbmlmaWVzdGEgcXVlIGxhIG9icmEgb2JqZXRvIGRlIGxhIHByZXNlbnRlIGF1dG9yaXphY2nDs24gZXMgb3JpZ2luYWwgeSBsYSByZWFsaXrDsyBzaW4gdmlvbGFyIG8gdXN1cnBhciBkZXJlY2hvcyBkZSBhdXRvciBkZSB0ZXJjZXJvcywgcG9yIGxvIHRhbnRvLCBsYSBvYnJhIGVzIGRlIHN1IGV4Y2x1c2l2YSBhdXRvcsOtYSB5IHRpZW5lIGxhIHRpdHVsYXJpZGFkIHNvYnJlIGxhIG1pc21hLiAKCgpFbiBjYXNvIGRlIHByZXNlbnRhcnNlIGN1YWxxdWllciByZWNsYW1hY2nDs24gbyBhY2Npw7NuIHBvciBwYXJ0ZSBkZSB1biB0ZXJjZXJvIGVuIGN1YW50byBhIGxvcyBkZXJlY2hvcyBkZSBhdXRvciBzb2JyZSBsYSBvYnJhIGVuIGN1ZXN0acOzbiwgZWwgYXV0b3IgYXN1bWlyw6EgdG9kYSBsYSByZXNwb25zYWJpbGlkYWQsIHkgc2FsZHLDoSBkZSBkZWZlbnNhIGRlIGxvcyBkZXJlY2hvcyBhcXXDrSBhdXRvcml6YWRvcywgcGFyYSB0b2RvcyBsb3MgZWZlY3RvcyBsYSBVbml2ZXJzaWRhZCBhY3TDumEgY29tbyB1biB0ZXJjZXJvIGRlIGJ1ZW5hIGZlLiAKCg== |