Aprendizaje por refuerzo multiagente en entornos sociales: comparación entre enfoques convencionales vs. la integración de LLMS como planeadores multiagente

Este trabajo explora el campo emergente de la Inteligencia Artificial (IA) en contextos sociales complejos, evaluando dos enfoques distintos para el modelado de interacciones en sistemas multiagente: los modelos convencionales de Aprendizaje por Refuerzo Multiagente (MARL) y una alternativa innovado...

Full description

Autores:
Pinzón Roncancio, Juan Sebastián
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
2023
Institución:
Universidad de los Andes
Repositorio:
Séneca: repositorio Uniandes
Idioma:
spa
OAI Identifier:
oai:repositorio.uniandes.edu.co:1992/73833
Acceso en línea:
https://hdl.handle.net/1992/73833
Palabra clave:
Aprendizaje por refuerzo
Large Language Model
Escenarios sociales
Agentes autónomos
Ingeniería
Rights
openAccess
License
https://repositorio.uniandes.edu.co/static/pdf/aceptacion_uso_es.pdf
Description
Summary:Este trabajo explora el campo emergente de la Inteligencia Artificial (IA) en contextos sociales complejos, evaluando dos enfoques distintos para el modelado de interacciones en sistemas multiagente: los modelos convencionales de Aprendizaje por Refuerzo Multiagente (MARL) y una alternativa innovadora que utiliza Modelos de Lenguaje de Gran Escala (LLMs) como planificadores para los agentes. Se pone especial énfasis en la integración de LLMs en la planificación multiagente, siguiendo la arquitectura propuesta por Park et al. (2023), y se evalúa comparativamente ambos enfoques en el escenario 'Commons Harvest Open' de Melting Pot. El estudio evidencia la alta sensibilidad de las arquitecturas de planeación basadas en LLM, influenciada tanto por la construcción de los prompts como por la información específica sobre los agentes incluida en ellos. Esto permite variaciones significativas en el comportamiento de los agentes sin necesidad de reentrenar los modelos. Por otro lado, los modelos de Aprendizaje por Refuerzo, demuestran ser superiores en algunos aspectos decisivos, como la prevención del consumo excesivo de recursos para maximizar el reward futuro, pero muestran limitaciones en el manejo de situaciones más complejas, tales como la identificación y confrontación de amenazas potenciales. Estos hallazgos subrayan la la flexibilidad en la adaptación de comportamientos para la gestión eficaz de agentes en entornos sociales complejos, abriendo caminos hacia aplicaciones potenciales en varios campos, como la robótica autónoma y el desarrollo de simuladores de entornos.