A funcionalidade de pesquisa está em construção.
A funcionalidade de pesquisa está em construção.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Model-Based Reinforcement Learning in Multiagent Systems with Sequential Action Selection Aprendizagem por reforço baseada em modelo em sistemas multiagentes com seleção de ação sequencial

Ali AKRAMIZADEH, Ahmad AFSHAR, Mohammad Bagher MENHAJ, Samira JAFARI

  • Exibições de texto completo

    0

  • Cite isto

Resumo:

A aprendizagem por reforço baseada em modelo utiliza as informações coletadas, durante cada experiência, de forma mais eficiente do que a aprendizagem por reforço sem modelo. Isto é especialmente interessante em sistemas multiagentes, uma vez que é necessário um grande número de experiências para alcançar um bom desempenho. Neste artigo, a aprendizagem por reforço baseada em modelo é desenvolvida para um grupo de agentes com interesse próprio, com seleção de ações sequenciais baseada na tradicional varredura priorizada. Cada situação de tomada de decisão neste processo de aprendizagem, denominado jogo extensivo de Markov, é modelada como nJogo extenso de soma geral de pessoas com informações perfeitas. Uma versão modificada da indução retroativa é proposta para a seleção de ações, que ajusta o equilíbrio entre a seleção de pontos de equilíbrio perfeitos no subjogo, como as ações conjuntas ótimas, e o aprendizado de novas ações conjuntas. O algoritmo é provado ser convergente e discutido com base nos novos resultados sobre a convergência da tradicional varredura priorizada.

Publicação
IEICE TRANSACTIONS on Information Vol.E94-D No.2 pp.255-263
Data de publicação
2011/02/01
Publicitada
ISSN online
1745-1361
DOI
10.1587/transinf.E94.D.255
Tipo de Manuscrito
PAPER
Categoria
Fundamentos de Sistemas de Informação

autores

Palavra-chave