A funcionalidade de pesquisa está em construção.
A funcionalidade de pesquisa está em construção.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Reward-Based Exploration: Adaptive Control for Deep Reinforcement Learning Exploração baseada em recompensa: controle adaptativo para aprendizado por reforço profundo

Zhi-xiong XU, Lei CAO, Xi-liang CHEN, Chen-xi LI

  • Exibições de texto completo

    0

  • Cite isto

Resumo:

Visando a contradição entre exploração e exploração na aprendizagem por reforço profundo, este artigo propõe “estratégia de exploração baseada em recompensa combinada com seleção de ação Softmax” (RBE-Softmax) como uma estratégia de exploração dinâmica para guiar o agente a aprender. A superioridade do método proposto é que a característica do processo de aprendizagem do agente é utilizada para adaptar os parâmetros de exploração online, e o agente é capaz de selecionar a ação ideal potencial de forma mais eficaz. O método proposto é avaliado em tarefas de controle discretas e contínuas no OpenAI Gym, e os resultados da avaliação empírica mostram que o método RBE-Softmax leva a uma melhoria estatisticamente significativa no desempenho de algoritmos de aprendizagem por reforço profundo.

Publicação
IEICE TRANSACTIONS on Information Vol.E101-D No.9 pp.2409-2412
Data de publicação
2018/09/01
Publicitada
2018/06/18
ISSN online
1745-1361
DOI
10.1587/transinf.2018EDL8011
Tipo de Manuscrito
LETTER
Categoria
Inteligência Artificial, Mineração de Dados

autores

Zhi-xiong XU
  Army Engineering University
Lei CAO
  Army Engineering University
Xi-liang CHEN
  Army Engineering University
Chen-xi LI
  Army Engineering University

Palavra-chave