Aprendizaje de selección de acciones en un mundo simple pero impredecible
Uno de los principales problemas estudiados en la simulación de agentes artificiales autónomos es el de la selección de acciones: un mecanismo que le permita al sistema escoger la acción más apropiada para la situación en que se encuentre, de tal forma que maximice su medida de éxito. El aprendizaje...
- Autores:
-
Rojas, Sergio A.
Martínez, José J.
- Tipo de recurso:
- Article of journal
- Fecha de publicación:
- 2002
- Institución:
- Universidad Nacional de Colombia
- Repositorio:
- Universidad Nacional de Colombia
- Idioma:
- spa
- OAI Identifier:
- oai:repositorio.unal.edu.co:unal/34188
- Acceso en línea:
- https://repositorio.unal.edu.co/handle/unal/34188
http://bdigital.unal.edu.co/24268/
- Palabra clave:
- Reinforcement learning
Q learning
Autonomous agents
Aprendizaje por refuerzo
Aprendizaje Q
Agentes autónomos
Animats
- Rights
- openAccess
- License
- Atribución-NoComercial 4.0 Internacional
id |
UNACIONAL2_fbebd6466f0b5e733e3aff1e645c8143 |
---|---|
oai_identifier_str |
oai:repositorio.unal.edu.co:unal/34188 |
network_acronym_str |
UNACIONAL2 |
network_name_str |
Universidad Nacional de Colombia |
repository_id_str |
|
spelling |
Atribución-NoComercial 4.0 InternacionalDerechos reservados - Universidad Nacional de Colombiahttp://creativecommons.org/licenses/by-nc/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Rojas, Sergio A.51b8c83b-6765-4bff-82d4-21032b31ebb3300Martínez, José J.5cb12067-d810-441d-a31a-0980644a370b3002019-06-27T23:15:52Z2019-06-27T23:15:52Z2002https://repositorio.unal.edu.co/handle/unal/34188http://bdigital.unal.edu.co/24268/Uno de los principales problemas estudiados en la simulación de agentes artificiales autónomos es el de la selección de acciones: un mecanismo que le permita al sistema escoger la acción más apropiada para la situación en que se encuentre, de tal forma que maximice su medida de éxito. El aprendizaje por refuerzo representa un enfoque atractivo para atacar este problema, ya que se basa en la búsqueda de señales de premio y la evasión de señales de castigo mediante un proceso de ensayo y error. En este artículo presentamos al PAISA 1, una criatura artificial que aprende a comportarse (seleccionar acciones) utilizando una técnica de aprendizaje por refuerzo (aprendizaje Q) para optimizar la cantidad de comida que puede encontrar en un mundo impredecible, aunque con un espacio estado-acción pequeño.One of the main problems studied in simulation of artificial autonomous agents is the action-selection: a mechanism that allows the system to choice the more suitable action for the specific situation where it is located, in such a way that maximises his success measure. The reinforcement learning represents an attractive approach to attack this problem, cause it is based in the searching of awards signals and the refusing of punishments by a trial and error process. In this paper we present the PAISA 1, an artificial creature that learns to behave (that is, action-selection) using a reinforcement learning technique known as Q-learning, to optimise the amount of food that he can find in an unpredictable world, although in a small state-action space.application/pdfspaUniversidad Nacional de Colombia - Facultad de Ingenieríahttp://revistas.unal.edu.co/index.php/ingeinv/article/view/21404Universidad Nacional de Colombia Revistas electrónicas UN Ingeniería e InvestigaciónIngeniería e InvestigaciónIngeniería e Investigación; núm. 49 (2002); 9-13 Ingeniería e Investigación; núm. 49 (2002); 9-13 2248-8723 0120-5609Rojas, Sergio A. and Martínez, José J. (2002) Aprendizaje de selección de acciones en un mundo simple pero impredecible. Ingeniería e Investigación; núm. 49 (2002); 9-13 Ingeniería e Investigación; núm. 49 (2002); 9-13 2248-8723 0120-5609 .Aprendizaje de selección de acciones en un mundo simple pero impredecibleArtículo de revistainfo:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_6501http://purl.org/coar/resource_type/c_2df8fbb1http://purl.org/coar/version/c_970fb48d4fbd8a85Texthttp://purl.org/redcol/resource_type/ARTReinforcement learningQ learningAutonomous agentsAprendizaje por refuerzoAprendizaje QAgentes autónomosAnimatsORIGINAL21404-72900-1-PB.pdfapplication/pdf891304https://repositorio.unal.edu.co/bitstream/unal/34188/1/21404-72900-1-PB.pdfa73bd44f4944472bf9483b00076d73dfMD51THUMBNAIL21404-72900-1-PB.pdf.jpg21404-72900-1-PB.pdf.jpgGenerated Thumbnailimage/jpeg8284https://repositorio.unal.edu.co/bitstream/unal/34188/2/21404-72900-1-PB.pdf.jpgd8be86d5b7665431be56eb107edb9087MD52unal/34188oai:repositorio.unal.edu.co:unal/341882023-12-25 23:05:33.014Repositorio Institucional Universidad Nacional de Colombiarepositorio_nal@unal.edu.co |
dc.title.spa.fl_str_mv |
Aprendizaje de selección de acciones en un mundo simple pero impredecible |
title |
Aprendizaje de selección de acciones en un mundo simple pero impredecible |
spellingShingle |
Aprendizaje de selección de acciones en un mundo simple pero impredecible Reinforcement learning Q learning Autonomous agents Aprendizaje por refuerzo Aprendizaje Q Agentes autónomos Animats |
title_short |
Aprendizaje de selección de acciones en un mundo simple pero impredecible |
title_full |
Aprendizaje de selección de acciones en un mundo simple pero impredecible |
title_fullStr |
Aprendizaje de selección de acciones en un mundo simple pero impredecible |
title_full_unstemmed |
Aprendizaje de selección de acciones en un mundo simple pero impredecible |
title_sort |
Aprendizaje de selección de acciones en un mundo simple pero impredecible |
dc.creator.fl_str_mv |
Rojas, Sergio A. Martínez, José J. |
dc.contributor.author.spa.fl_str_mv |
Rojas, Sergio A. Martínez, José J. |
dc.subject.proposal.spa.fl_str_mv |
Reinforcement learning Q learning Autonomous agents Aprendizaje por refuerzo Aprendizaje Q Agentes autónomos Animats |
topic |
Reinforcement learning Q learning Autonomous agents Aprendizaje por refuerzo Aprendizaje Q Agentes autónomos Animats |
description |
Uno de los principales problemas estudiados en la simulación de agentes artificiales autónomos es el de la selección de acciones: un mecanismo que le permita al sistema escoger la acción más apropiada para la situación en que se encuentre, de tal forma que maximice su medida de éxito. El aprendizaje por refuerzo representa un enfoque atractivo para atacar este problema, ya que se basa en la búsqueda de señales de premio y la evasión de señales de castigo mediante un proceso de ensayo y error. En este artículo presentamos al PAISA 1, una criatura artificial que aprende a comportarse (seleccionar acciones) utilizando una técnica de aprendizaje por refuerzo (aprendizaje Q) para optimizar la cantidad de comida que puede encontrar en un mundo impredecible, aunque con un espacio estado-acción pequeño. |
publishDate |
2002 |
dc.date.issued.spa.fl_str_mv |
2002 |
dc.date.accessioned.spa.fl_str_mv |
2019-06-27T23:15:52Z |
dc.date.available.spa.fl_str_mv |
2019-06-27T23:15:52Z |
dc.type.spa.fl_str_mv |
Artículo de revista |
dc.type.coar.fl_str_mv |
http://purl.org/coar/resource_type/c_2df8fbb1 |
dc.type.driver.spa.fl_str_mv |
info:eu-repo/semantics/article |
dc.type.version.spa.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.coar.spa.fl_str_mv |
http://purl.org/coar/resource_type/c_6501 |
dc.type.coarversion.spa.fl_str_mv |
http://purl.org/coar/version/c_970fb48d4fbd8a85 |
dc.type.content.spa.fl_str_mv |
Text |
dc.type.redcol.spa.fl_str_mv |
http://purl.org/redcol/resource_type/ART |
format |
http://purl.org/coar/resource_type/c_6501 |
status_str |
publishedVersion |
dc.identifier.uri.none.fl_str_mv |
https://repositorio.unal.edu.co/handle/unal/34188 |
dc.identifier.eprints.spa.fl_str_mv |
http://bdigital.unal.edu.co/24268/ |
url |
https://repositorio.unal.edu.co/handle/unal/34188 http://bdigital.unal.edu.co/24268/ |
dc.language.iso.spa.fl_str_mv |
spa |
language |
spa |
dc.relation.spa.fl_str_mv |
http://revistas.unal.edu.co/index.php/ingeinv/article/view/21404 |
dc.relation.ispartof.spa.fl_str_mv |
Universidad Nacional de Colombia Revistas electrónicas UN Ingeniería e Investigación Ingeniería e Investigación |
dc.relation.ispartofseries.none.fl_str_mv |
Ingeniería e Investigación; núm. 49 (2002); 9-13 Ingeniería e Investigación; núm. 49 (2002); 9-13 2248-8723 0120-5609 |
dc.relation.references.spa.fl_str_mv |
Rojas, Sergio A. and Martínez, José J. (2002) Aprendizaje de selección de acciones en un mundo simple pero impredecible. Ingeniería e Investigación; núm. 49 (2002); 9-13 Ingeniería e Investigación; núm. 49 (2002); 9-13 2248-8723 0120-5609 . |
dc.rights.spa.fl_str_mv |
Derechos reservados - Universidad Nacional de Colombia |
dc.rights.coar.fl_str_mv |
http://purl.org/coar/access_right/c_abf2 |
dc.rights.license.spa.fl_str_mv |
Atribución-NoComercial 4.0 Internacional |
dc.rights.uri.spa.fl_str_mv |
http://creativecommons.org/licenses/by-nc/4.0/ |
dc.rights.accessrights.spa.fl_str_mv |
info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Atribución-NoComercial 4.0 Internacional Derechos reservados - Universidad Nacional de Colombia http://creativecommons.org/licenses/by-nc/4.0/ http://purl.org/coar/access_right/c_abf2 |
eu_rights_str_mv |
openAccess |
dc.format.mimetype.spa.fl_str_mv |
application/pdf |
dc.publisher.spa.fl_str_mv |
Universidad Nacional de Colombia - Facultad de Ingeniería |
institution |
Universidad Nacional de Colombia |
bitstream.url.fl_str_mv |
https://repositorio.unal.edu.co/bitstream/unal/34188/1/21404-72900-1-PB.pdf https://repositorio.unal.edu.co/bitstream/unal/34188/2/21404-72900-1-PB.pdf.jpg |
bitstream.checksum.fl_str_mv |
a73bd44f4944472bf9483b00076d73df d8be86d5b7665431be56eb107edb9087 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Repositorio Institucional Universidad Nacional de Colombia |
repository.mail.fl_str_mv |
repositorio_nal@unal.edu.co |
_version_ |
1814089836376621056 |