A funcionalidade de pesquisa está em construção.
A funcionalidade de pesquisa está em construção.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Towards Interpretable Reinforcement Learning with State Abstraction Driven by External Knowledge Rumo à aprendizagem por reforço interpretável com abstração de estado impulsionada pelo conhecimento externo

Nicolas BOUGIE, Ryutaro ICHISE

  • Exibições de texto completo

    0

  • Cite isto

Resumo:

Os avanços na aprendizagem por reforço profundo demonstraram sua eficácia em uma ampla variedade de domínios. Redes neurais profundas são capazes de aproximar funções e políticas de valor em ambientes complexos. No entanto, as redes neurais profundas herdam uma série de desvantagens. A falta de interpretabilidade limita sua usabilidade em muitos cenários do mundo real críticos para a segurança. Além disso, eles dependem de enormes quantidades de dados para aprender com eficiência. Isto pode ser adequado em tarefas simuladas, mas restringe seu uso a muitas aplicações do mundo real. Finalmente, a sua capacidade de generalização é baixa, a capacidade de determinar que uma situação é semelhante a outra encontrada anteriormente. Apresentamos um método para combinar conhecimento externo e aprendizagem por reforço interpretável. Derivamos uma versão variante baseada em regras do algoritmo Sarsa(λ), que chamamos de Sarsa-rb(λ), que aumenta os dados com conhecimento prévio e explora semelhanças entre estados. Demonstramos que nossa abordagem aproveita pequenas quantidades de conhecimento prévio para acelerar significativamente o aprendizado em vários domínios, como negociação ou navegação visual. O agente resultante fornece ganhos substanciais em velocidade e desempenho de treinamento em relação ao q-learning profundo (DQN), gradientes de política determinísticos profundos (DDPG) e melhora a estabilidade em relação à otimização de política proximal (PPO).

Publicação
IEICE TRANSACTIONS on Information Vol.E103-D No.10 pp.2143-2153
Data de publicação
2020/10/01
Publicitada
2020/07/03
ISSN online
1745-1361
DOI
10.1587/transinf.2019EDP7170
Tipo de Manuscrito
PAPER
Categoria
Inteligência Artificial, Mineração de Dados

autores

Nicolas BOUGIE
  Sokendai, The Graduate University for Advanced Studies,National Institute of Informatics
Ryutaro ICHISE
  Sokendai, The Graduate University for Advanced Studies,National Institute of Informatics

Palavra-chave