A funcionalidade de pesquisa está em construção.
A funcionalidade de pesquisa está em construção.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Tensor Factor Analysis for Arbitrary Speaker Conversion Análise de fator tensorial para conversão arbitrária de alto-falante

Daisuke SAITO, Nobuaki MINEMATSU, Keikichi HIROSE

  • Exibições de texto completo

    0

  • Cite isto

Resumo:

Este artigo descreve uma nova abordagem para o controle flexível das características do alto-falante usando representação tensorial de múltiplos modelos de mistura gaussiana (GMM). Nos estudos de conversão de voz, a realização da conversão de/para a voz de um locutor arbitrário é um dos objetivos importantes. Para tanto, foi proposta a conversão de voz própria (EVC) baseada em um GMM de voz própria (EV-GMM). No EVC, um espaço de alto-falante é construído com base em supervetores GMM que são vetores de alta dimensão derivados da concatenação dos vetores médios de cada um dos GMMs de alto-falante. No espaço de alto-falantes, cada alto-falante é representado por um pequeno número de parâmetros de peso de supervetores próprios. Neste artigo, revisitamos a construção do espaço do falante introduzindo a análise fatorial tensorial do conjunto de dados de treinamento. Na nossa abordagem, cada alto-falante é representado como uma matriz cuja linha e coluna correspondem respectivamente à dimensão do vetor médio e à componente gaussiana. O espaço do alto-falante é derivado da análise fatorial tensorial do conjunto das matrizes. Nossa abordagem pode resolver um problema inerente à representação supervetorial e melhora o desempenho da conversão de voz. Além disso, neste artigo, também são investigados os efeitos do treinamento adaptativo do falante antes da fatoração. Resultados experimentais de conversão de voz um para muitos demonstram a eficácia da abordagem proposta.

Publicação
IEICE TRANSACTIONS on Information Vol.E103-D No.6 pp.1395-1405
Data de publicação
2020/06/01
Publicitada
2020/03/13
ISSN online
1745-1361
DOI
10.1587/transinf.2019EDP7166
Tipo de Manuscrito
PAPER
Categoria
Fala e Audição

autores

Daisuke SAITO
  The University of Tokyo
Nobuaki MINEMATSU
  The University of Tokyo
Keikichi HIROSE
  The University of Tokyo

Palavra-chave