A funcionalidade de pesquisa está em construção.
A funcionalidade de pesquisa está em construção.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Speech Recognition for Air Traffic Control via Feature Learning and End-to-End Training Reconhecimento de fala para controle de tráfego aéreo por meio de aprendizado de recursos e treinamento completo

Peng FAN, Xiyao HUA, Yi LIN, Bo YANG, Jianwei ZHANG, Wenyi GE, Dongyue GUO

  • Exibições de texto completo

    12

  • Cite isto

Resumo:

Neste trabalho, propomos um novo sistema de reconhecimento automático de fala (ASR) baseado em aprendizado de características e um procedimento de treinamento ponta a ponta para sistemas de controle de tráfego aéreo (ATC). O modelo proposto integra o bloco de aprendizagem de recursos, rede neural recorrente (RNN) e perda de classificação temporal conexionista para construir um modelo ASR ponta a ponta. Enfrentando os ambientes complexos da fala ATC, em vez dos recursos artesanais, um bloco de aprendizagem é projetado para extrair recursos informativos de formas de onda brutas para modelagem acústica. Ambos os blocos de convolução SincNet e 1D são aplicados para processar as formas de onda brutas, cujas saídas são concatenadas às camadas RNN para a modelagem temporal. Graças à capacidade de aprender representações a partir de formas de onda brutas, o modelo proposto pode ser otimizado de maneira completa, ou seja, da forma de onda ao texto. Finalmente, a questão multilíngue no domínio ATC também é considerada para cumprir a tarefa ASR através da construção de um vocabulário combinado de caracteres chineses e letras inglesas. A abordagem proposta é validada em um corpus multilíngue do mundo real (ATCSpeech), e os resultados experimentais demonstram que a abordagem proposta supera outras linhas de base, alcançando uma taxa de erro de caracteres de 6.9%.

Publicação
IEICE TRANSACTIONS on Information Vol.E106-D No.4 pp.538-544
Data de publicação
2023/04/01
Publicitada
2023/01/23
ISSN online
1745-1361
DOI
10.1587/transinf.2022EDP7151
Tipo de Manuscrito
PAPER
Categoria
Fala e Audição

autores

Peng FAN
  Sichuan University
Xiyao HUA
  Sichuan University
Yi LIN
  Sichuan University
Bo YANG
  Sichuan University
Jianwei ZHANG
  Sichuan University
Wenyi GE
  Chengdu University of Information Technology
Dongyue GUO
  Sichuan University

Palavra-chave