A funcionalidade de pesquisa está em construção.
A funcionalidade de pesquisa está em construção.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Deep Reinforcement Learning with Sarsa and Q-Learning: A Hybrid Approach Aprendizado por reforço profundo com Sarsa e Q-Learning: uma abordagem híbrida

Zhi-xiong XU, Lei CAO, Xi-liang CHEN, Chen-xi LI, Yong-liang ZHANG, Jun LAI

  • Exibições de texto completo

    0

  • Cite isto

Resumo:

Sabe-se que as Deep Q Networks comumente usadas superestimam os valores de ação sob certas condições. Também está comprovado que superestimações prejudicam o desempenho, podendo causar instabilidade e divergência de aprendizagem. Neste artigo, apresentamos o algoritmo Deep Sarsa and Q Networks (DSQN), que pode ser considerado um aprimoramento do algoritmo Deep Q Networks. Primeiro, o algoritmo DSQN aproveita a repetição da experiência e as técnicas de rede alvo nas Deep Q Networks para melhorar a estabilidade das redes neurais. Em segundo lugar, o estimador duplo é utilizado para Q-learning para reduzir superestimações. Especialmente, apresentamos o aprendizado Sarsa às Deep Q Networks para remover ainda mais as superestimações. Finalmente, o algoritmo DSQN é avaliado em tarefas de balanceamento de carrinho, carro de montanha e controle de lunarlander do OpenAI Gym. Os resultados da avaliação empírica mostram que o método proposto leva à redução de superestimações, a um processo de aprendizagem mais estável e a um melhor desempenho.

Publicação
IEICE TRANSACTIONS on Information Vol.E101-D No.9 pp.2315-2322
Data de publicação
2018/09/01
Publicitada
2018/05/22
ISSN online
1745-1361
DOI
10.1587/transinf.2017EDP7278
Tipo de Manuscrito
PAPER
Categoria
Inteligência Artificial, Mineração de Dados

autores

Zhi-xiong XU
  PLA University of Science and Technology
Lei CAO
  PLA University of Science and Technology
Xi-liang CHEN
  PLA University of Science and Technology
Chen-xi LI
  PLA University of Science and Technology
Yong-liang ZHANG
  PLA University of Science and Technology
Jun LAI
  PLA University of Science and Technology

Palavra-chave