A funcionalidade de pesquisa está em construção.
A funcionalidade de pesquisa está em construção.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

A Highly Configurable 7.62GOP/s Hardware Implementation for LSTM Uma implementação de hardware 7.62GOP/s altamente configurável para LSTM

Yibo FAN, Leilei HUANG, Kewei CHEN, Xiaoyang ZENG

  • Exibições de texto completo

    0

  • Cite isto

Resumo:

A rede neural tem sido uma das técnicas mais úteis na área de reconhecimento de fala, tradução de idiomas e análise de imagens nos últimos anos. Long Short-Term Memory (LSTM), um tipo popular de redes neurais recorrentes (RNNs), tem sido amplamente implementada em CPUs e GPUs. No entanto, essas implementações de software oferecem um paralelismo pobre, enquanto as implementações de hardware existentes carecem de configurabilidade. Para compensar essa lacuna, uma implementação de hardware de 7.62 GOP/s altamente configurável para LSTM é proposta neste artigo. Para atingir o objetivo, o fluxo de trabalho é cuidadosamente organizado para tornar o projeto compacto e de alto rendimento; a estrutura é cuidadosamente organizada para tornar o projeto configurável; a estratégia de buffer e compactação de dados é cuidadosamente escolhida para diminuir a largura de banda sem aumentar a complexidade da estrutura; o tipo de dados, a função logística sigmóide (σ) e a função tangente hiperbólica (tanh) são cuidadosamente otimizados para equilibrar o custo e a precisão do hardware. Este trabalho atinge um desempenho de 7.62 GOP/s a 238 MHz no FPGA XCZU6EG, que utiliza apenas tabela de consulta (LUT) de 3K. Comparado com a implementação na CPU Intel Xeon E5-2620 a 2.10 GHz, este trabalho atinge cerca de 90× de aceleração para redes pequenas e 25× de aceleração para redes grandes. O consumo de recursos também é bem menor que o das obras de última geração.

Publicação
IEICE TRANSACTIONS on Electronics Vol.E103-C No.5 pp.263-273
Data de publicação
2020/05/01
Publicitada
2019/11/27
ISSN online
1745-1353
DOI
10.1587/transele.2019ECP5008
Tipo de Manuscrito
PAPER
Categoria
Eletrônica Integrada

autores

Yibo FAN
  Fudan University
Leilei HUANG
  Fudan University
Kewei CHEN
  Fudan University
Xiaoyang ZENG
  Fudan University

Palavra-chave