A funcionalidade de pesquisa está em construção.
A funcionalidade de pesquisa está em construção.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Multilayer Perceptron Training Accelerator Using Systolic Array Acelerador de treinamento Perceptron multicamadas usando matriz sistólica

Takeshi SENOO, Akira JINGUJI, Ryosuke KURAMOCHI, Hiroki NAKAHARA

  • Exibições de texto completo

    0

  • Cite isto

Resumo:

O perceptron multicamadas (MLP) é um modelo básico de rede neural usado em aplicações industriais práticas, como sistemas de detecção de intrusão de rede (NID). Também é usado como bloco de construção em modelos mais recentes, como o gMLP. Atualmente, existe uma demanda por treinamentos rápidos em NID e outras áreas. No entanto, no treinamento com inúmeras GPUs, surgem problemas de consumo de energia e longos tempos de treinamento. Muitos dos mais recentes modelos de redes neurais profundas (DNN) e MLPs são treinados usando um algoritmo de retropropagação que transmite um gradiente de erro da camada de saída para a camada de entrada, de modo que, na computação sequencial, a próxima entrada não possa ser processada até que os pesos de todos as camadas são atualizadas a partir da última camada. Isso é conhecido como bloqueio reverso. Neste estudo, um mecanismo de atualização de parâmetros de peso é proposto com atrasos de tempo que podem acomodar o atraso de atualização de peso para permitir computação simultânea para frente e para trás. Para tanto, uma estrutura de array sistólico unidimensional foi projetada em uma placa Xilinx U50 Alveo FPGA na qual cada camada do MLP é atribuída a um elemento de processamento (PE). O algoritmo de retropropagação com atraso de tempo executa todas as camadas em paralelo e transfere dados entre camadas em um pipeline. Comparado com a CPU Intel Core i9 e a GPU NVIDIA RTX 3090, é 3 vezes mais rápido que a CPU e 2.5 vezes mais rápido que a GPU. A velocidade de processamento por consumo de energia é 11.5 vezes melhor que a da CPU e 21.4 vezes melhor que a da GPU. A partir destes resultados conclui-se que um acelerador de treinamento em um FPGA pode atingir alta velocidade e eficiência energética.

Publicação
IEICE TRANSACTIONS on Information Vol.E105-D No.12 pp.2048-2056
Data de publicação
2022/12/01
Publicitada
2022/07/21
ISSN online
1745-1361
DOI
10.1587/transinf.2022PAP0003
Tipo de Manuscrito
Special Section PAPER (Special Section on Forefront Computing)
Categoria

autores

Takeshi SENOO
  Tokyo Institute of Technology
Akira JINGUJI
  Tokyo Institute of Technology
Ryosuke KURAMOCHI
  Tokyo Institute of Technology
Hiroki NAKAHARA
  Tokyo Institute of Technology

Palavra-chave