Aprendizaje de selección de acciones en un mundo simple pero impredecible

Uno de los principales problemas estudiados en la simulación de agentes artificiales autónomos es el de la selección de acciones: un mecanismo que le permita al sistema escoger la acción más apropiada para la situación en que se encuentre, de tal forma que maximice su medida de éxito. El aprendizaje...

Full description

Autores:
Rojas, Sergio A.
Martínez, José J.
Tipo de recurso:
Article of journal
Fecha de publicación:
2002
Institución:
Universidad Nacional de Colombia
Repositorio:
Universidad Nacional de Colombia
Idioma:
spa
OAI Identifier:
oai:repositorio.unal.edu.co:unal/34188
Acceso en línea:
https://repositorio.unal.edu.co/handle/unal/34188
http://bdigital.unal.edu.co/24268/
Palabra clave:
Reinforcement learning
Q learning
Autonomous agents
Aprendizaje por refuerzo
Aprendizaje Q
Agentes autónomos
Animats
Rights
openAccess
License
Atribución-NoComercial 4.0 Internacional
id UNACIONAL2_fbebd6466f0b5e733e3aff1e645c8143
oai_identifier_str oai:repositorio.unal.edu.co:unal/34188
network_acronym_str UNACIONAL2
network_name_str Universidad Nacional de Colombia
repository_id_str
spelling Atribución-NoComercial 4.0 InternacionalDerechos reservados - Universidad Nacional de Colombiahttp://creativecommons.org/licenses/by-nc/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Rojas, Sergio A.51b8c83b-6765-4bff-82d4-21032b31ebb3300Martínez, José J.5cb12067-d810-441d-a31a-0980644a370b3002019-06-27T23:15:52Z2019-06-27T23:15:52Z2002https://repositorio.unal.edu.co/handle/unal/34188http://bdigital.unal.edu.co/24268/Uno de los principales problemas estudiados en la simulación de agentes artificiales autónomos es el de la selección de acciones: un mecanismo que le permita al sistema escoger la acción más apropiada para la situación en que se encuentre, de tal forma que maximice su medida de éxito. El aprendizaje por refuerzo representa un enfoque atractivo para atacar este problema, ya que se basa en la búsqueda de señales de premio y la evasión de señales de castigo mediante un proceso de ensayo y error. En este artículo presentamos al PAISA 1, una criatura artificial que aprende a comportarse (seleccionar acciones) utilizando una técnica de aprendizaje por refuerzo (aprendizaje Q) para optimizar la cantidad de comida que puede encontrar en un mundo impredecible, aunque con un espacio estado-acción pequeño.One of the main problems studied in simulation of artificial autonomous agents is the action-selection: a mechanism that allows the system to choice the more suitable action for the specific situation where it is located, in such a way that maximises his success measure. The reinforcement learning represents an attractive approach to attack this problem, cause it is based in the searching of awards signals and the refusing of punishments by a trial and error process. In this paper we present the PAISA 1, an artificial creature that learns to behave (that is, action-selection) using a reinforcement learning technique known as Q-learning, to optimise the amount of food that he can find in an unpredictable world, although in a small state-action space.application/pdfspaUniversidad Nacional de Colombia - Facultad de Ingenieríahttp://revistas.unal.edu.co/index.php/ingeinv/article/view/21404Universidad Nacional de Colombia Revistas electrónicas UN Ingeniería e InvestigaciónIngeniería e InvestigaciónIngeniería e Investigación; núm. 49 (2002); 9-13 Ingeniería e Investigación; núm. 49 (2002); 9-13 2248-8723 0120-5609Rojas, Sergio A. and Martínez, José J. (2002) Aprendizaje de selección de acciones en un mundo simple pero impredecible. Ingeniería e Investigación; núm. 49 (2002); 9-13 Ingeniería e Investigación; núm. 49 (2002); 9-13 2248-8723 0120-5609 .Aprendizaje de selección de acciones en un mundo simple pero impredecibleArtículo de revistainfo:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_6501http://purl.org/coar/resource_type/c_2df8fbb1http://purl.org/coar/version/c_970fb48d4fbd8a85Texthttp://purl.org/redcol/resource_type/ARTReinforcement learningQ learningAutonomous agentsAprendizaje por refuerzoAprendizaje QAgentes autónomosAnimatsORIGINAL21404-72900-1-PB.pdfapplication/pdf891304https://repositorio.unal.edu.co/bitstream/unal/34188/1/21404-72900-1-PB.pdfa73bd44f4944472bf9483b00076d73dfMD51THUMBNAIL21404-72900-1-PB.pdf.jpg21404-72900-1-PB.pdf.jpgGenerated Thumbnailimage/jpeg8284https://repositorio.unal.edu.co/bitstream/unal/34188/2/21404-72900-1-PB.pdf.jpgd8be86d5b7665431be56eb107edb9087MD52unal/34188oai:repositorio.unal.edu.co:unal/341882023-12-25 23:05:33.014Repositorio Institucional Universidad Nacional de Colombiarepositorio_nal@unal.edu.co
dc.title.spa.fl_str_mv Aprendizaje de selección de acciones en un mundo simple pero impredecible
title Aprendizaje de selección de acciones en un mundo simple pero impredecible
spellingShingle Aprendizaje de selección de acciones en un mundo simple pero impredecible
Reinforcement learning
Q learning
Autonomous agents
Aprendizaje por refuerzo
Aprendizaje Q
Agentes autónomos
Animats
title_short Aprendizaje de selección de acciones en un mundo simple pero impredecible
title_full Aprendizaje de selección de acciones en un mundo simple pero impredecible
title_fullStr Aprendizaje de selección de acciones en un mundo simple pero impredecible
title_full_unstemmed Aprendizaje de selección de acciones en un mundo simple pero impredecible
title_sort Aprendizaje de selección de acciones en un mundo simple pero impredecible
dc.creator.fl_str_mv Rojas, Sergio A.
Martínez, José J.
dc.contributor.author.spa.fl_str_mv Rojas, Sergio A.
Martínez, José J.
dc.subject.proposal.spa.fl_str_mv Reinforcement learning
Q learning
Autonomous agents
Aprendizaje por refuerzo
Aprendizaje Q
Agentes autónomos
Animats
topic Reinforcement learning
Q learning
Autonomous agents
Aprendizaje por refuerzo
Aprendizaje Q
Agentes autónomos
Animats
description Uno de los principales problemas estudiados en la simulación de agentes artificiales autónomos es el de la selección de acciones: un mecanismo que le permita al sistema escoger la acción más apropiada para la situación en que se encuentre, de tal forma que maximice su medida de éxito. El aprendizaje por refuerzo representa un enfoque atractivo para atacar este problema, ya que se basa en la búsqueda de señales de premio y la evasión de señales de castigo mediante un proceso de ensayo y error. En este artículo presentamos al PAISA 1, una criatura artificial que aprende a comportarse (seleccionar acciones) utilizando una técnica de aprendizaje por refuerzo (aprendizaje Q) para optimizar la cantidad de comida que puede encontrar en un mundo impredecible, aunque con un espacio estado-acción pequeño.
publishDate 2002
dc.date.issued.spa.fl_str_mv 2002
dc.date.accessioned.spa.fl_str_mv 2019-06-27T23:15:52Z
dc.date.available.spa.fl_str_mv 2019-06-27T23:15:52Z
dc.type.spa.fl_str_mv Artículo de revista
dc.type.coar.fl_str_mv http://purl.org/coar/resource_type/c_2df8fbb1
dc.type.driver.spa.fl_str_mv info:eu-repo/semantics/article
dc.type.version.spa.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.coar.spa.fl_str_mv http://purl.org/coar/resource_type/c_6501
dc.type.coarversion.spa.fl_str_mv http://purl.org/coar/version/c_970fb48d4fbd8a85
dc.type.content.spa.fl_str_mv Text
dc.type.redcol.spa.fl_str_mv http://purl.org/redcol/resource_type/ART
format http://purl.org/coar/resource_type/c_6501
status_str publishedVersion
dc.identifier.uri.none.fl_str_mv https://repositorio.unal.edu.co/handle/unal/34188
dc.identifier.eprints.spa.fl_str_mv http://bdigital.unal.edu.co/24268/
url https://repositorio.unal.edu.co/handle/unal/34188
http://bdigital.unal.edu.co/24268/
dc.language.iso.spa.fl_str_mv spa
language spa
dc.relation.spa.fl_str_mv http://revistas.unal.edu.co/index.php/ingeinv/article/view/21404
dc.relation.ispartof.spa.fl_str_mv Universidad Nacional de Colombia Revistas electrónicas UN Ingeniería e Investigación
Ingeniería e Investigación
dc.relation.ispartofseries.none.fl_str_mv Ingeniería e Investigación; núm. 49 (2002); 9-13 Ingeniería e Investigación; núm. 49 (2002); 9-13 2248-8723 0120-5609
dc.relation.references.spa.fl_str_mv Rojas, Sergio A. and Martínez, José J. (2002) Aprendizaje de selección de acciones en un mundo simple pero impredecible. Ingeniería e Investigación; núm. 49 (2002); 9-13 Ingeniería e Investigación; núm. 49 (2002); 9-13 2248-8723 0120-5609 .
dc.rights.spa.fl_str_mv Derechos reservados - Universidad Nacional de Colombia
dc.rights.coar.fl_str_mv http://purl.org/coar/access_right/c_abf2
dc.rights.license.spa.fl_str_mv Atribución-NoComercial 4.0 Internacional
dc.rights.uri.spa.fl_str_mv http://creativecommons.org/licenses/by-nc/4.0/
dc.rights.accessrights.spa.fl_str_mv info:eu-repo/semantics/openAccess
rights_invalid_str_mv Atribución-NoComercial 4.0 Internacional
Derechos reservados - Universidad Nacional de Colombia
http://creativecommons.org/licenses/by-nc/4.0/
http://purl.org/coar/access_right/c_abf2
eu_rights_str_mv openAccess
dc.format.mimetype.spa.fl_str_mv application/pdf
dc.publisher.spa.fl_str_mv Universidad Nacional de Colombia - Facultad de Ingeniería
institution Universidad Nacional de Colombia
bitstream.url.fl_str_mv https://repositorio.unal.edu.co/bitstream/unal/34188/1/21404-72900-1-PB.pdf
https://repositorio.unal.edu.co/bitstream/unal/34188/2/21404-72900-1-PB.pdf.jpg
bitstream.checksum.fl_str_mv a73bd44f4944472bf9483b00076d73df
d8be86d5b7665431be56eb107edb9087
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositorio Institucional Universidad Nacional de Colombia
repository.mail.fl_str_mv repositorio_nal@unal.edu.co
_version_ 1814089836376621056