A funcionalidade de pesquisa está em construção.
A funcionalidade de pesquisa está em construção.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Hybrid Electrical/Optical Switch Architectures for Training Distributed Deep Learning in Large-Scale Arquiteturas híbridas de switch elétrico/óptico para treinamento de aprendizado profundo distribuído em larga escala

Thao-Nguyen TRUONG, Ryousei TAKANO

  • Exibições de texto completo

    0

  • Cite isto

Resumo:

O paralelismo de dados é o método dominante usado para treinar modelos de aprendizagem profunda (DL) em sistemas de computação de alto desempenho, como clusters de GPU em grande escala. Ao treinar um modelo DL em um grande número de nós, a comunicação entre nós torna-se um gargalo devido à sua latência relativamente maior e menor largura de banda do link (do que a comunicação intra-nós). Embora algumas técnicas de comunicação tenham sido propostas para lidar com este problema, todas estas abordagens visam lidar com o problema do grande tamanho da mensagem, ao mesmo tempo que diminuem o efeito da limitação da rede entre nós. Neste estudo, investigamos o benefício de aumentar a largura de banda do link entre nós usando sistemas de comutação híbridos, ou seja, Comutação Elétrica de Pacotes e Comutação de Circuitos Ópticos. Descobrimos que a transferência de dados típica do treinamento síncrono de paralelismo de dados é de longa duração e raramente alterada, o que pode ser acelerado com comutação óptica. Os resultados da simulação no simulador Simgrid mostram que nossa abordagem acelera o tempo de treinamento de aplicações de aprendizagem profunda, especialmente em larga escala.

Publicação
IEICE TRANSACTIONS on Information Vol.E104-D No.8 pp.1332-1339
Data de publicação
2021/08/01
Publicitada
2021/04/23
ISSN online
1745-1361
DOI
10.1587/transinf.2020EDP7201
Tipo de Manuscrito
PAPER
Categoria
Rede de Informação

autores

Thao-Nguyen TRUONG
  National Institute of Advanced Industrial Science and Technology (AIST)
Ryousei TAKANO
  National Institute of Advanced Industrial Science and Technology (AIST)

Palavra-chave