A funcionalidade de pesquisa está em construção.
A funcionalidade de pesquisa está em construção.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Discriminative Learning of Filterbank Layer within Deep Neural Network Based Speech Recognition for Speaker Adaptation Aprendizagem discriminativa da camada Filterbank no reconhecimento de fala baseado em rede neural profunda para adaptação de alto-falante

Hiroshi SEKI, Kazumasa YAMAMOTO, Tomoyosi AKIBA, Seiichi NAKAGAWA

  • Exibições de texto completo

    0

  • Cite isto

Resumo:

As redes neurais profundas (DNNs) alcançaram um sucesso significativo no campo do reconhecimento automático de fala. Uma vantagem principal das DNNs é a extração automática de recursos sem intervenção humana. No entanto, a adaptação sob dados disponíveis limitados continua a ser um grande desafio para os sistemas baseados em DNN devido aos seus enormes parâmetros livres. Neste artigo, propomos um DNN incorporado em banco de filtros que incorpora uma camada de banco de filtros que apresenta a forma/frequência central do filtro e um modelo acústico baseado em DNN. A camada do banco de filtros e as seguintes redes do modelo proposto são treinadas em conjunto, explorando as vantagens da extração hierárquica de características, enquanto a maioria dos sistemas usa características predefinidas do banco de filtros em escala mel como características acústicas de entrada para DNNs. Os filtros na camada do banco de filtros são parametrizados para representar as características do alto-falante enquanto minimizam vários parâmetros. A otimização de um tipo de parâmetro corresponde à Normalização do Comprimento do Trato Vocal (VTLN), e outro tipo corresponde à Regressão Linear de Verossimilhança Máxima do espaço de características (fMLLR) e à Regressão Linear Discriminativa do espaço de características (fDLR). Como a camada do banco de filtros consiste em apenas alguns parâmetros, é vantajoso na adaptação sob dados disponíveis limitados. No experimento, DNNs incorporadas ao banco de filtros mostraram eficácia nas adaptações de locutor/gênero sob dados de adaptação limitados. Resultados experimentais na tarefa CSJ demonstram que a adaptação do modelo proposto apresentou taxa de redução de erros de palavras de 5.8% com 10 enunciados em relação ao modelo não adaptado.

Publicação
IEICE TRANSACTIONS on Information Vol.E102-D No.2 pp.364-374
Data de publicação
2019/02/01
Publicitada
2018/11/07
ISSN online
1745-1361
DOI
10.1587/transinf.2018EDP7252
Tipo de Manuscrito
PAPER
Categoria
Fala e Audição

autores

Hiroshi SEKI
  Toyohashi University of Technology
Kazumasa YAMAMOTO
  Chubu University
Tomoyosi AKIBA
  Toyohashi University of Technology
Seiichi NAKAGAWA
  Toyohashi University of Technology,Chubu University

Palavra-chave