A funcionalidade de pesquisa está em construção.
A funcionalidade de pesquisa está em construção.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Improvements of the One-to-Many Eigenvoice Conversion System Melhorias no sistema de conversão de voz automática um para muitos

Yamato OHTANI, Tomoki TODA, Hiroshi SARUWATARI, Kiyohiro SHIKANO

  • Exibições de texto completo

    0

  • Cite isto

Resumo:

Desenvolvemos um sistema de conversão de voz própria (EVC) um para muitos que nos permite converter a voz de um locutor de origem única na voz de um locutor alvo arbitrário usando um modelo de mistura gaussiana de voz própria (EV-GMM). Este sistema é capaz de construir efetivamente um modelo de conversão para um locutor alvo arbitrário, adaptando o EV-GMM usando apenas uma pequena quantidade de dados de fala proferidos pelo locutor alvo de uma maneira independente de texto. Contudo, o desempenho de conversão ainda é insuficiente pelas seguintes razões: 1) o sinal de excitação não é modelado com precisão; 2) a suavização excessiva do espectro convertido causa sons abafados na fala convertida; e 3) o modelo de conversão é afetado por variações acústicas redundantes entre muitos alto-falantes alvo pré-armazenados usados ​​para construir o EV-GMM. Para resolver esses problemas, aplicamos as seguintes técnicas promissoras ao EVC um-para-muitos: 1) excitação mista; 2) um algoritmo de conversão considerando a variância global; e 3) treinamento adaptativo do EV-GMM. Os resultados experimentais demonstram que o desempenho de conversão do EVC um para muitos é significativamente melhorado com a integração de todas essas técnicas no sistema EVC um para muitos.

Publicação
IEICE TRANSACTIONS on Information Vol.E93-D No.9 pp.2491-2499
Data de publicação
2010/09/01
Publicitada
ISSN online
1745-1361
DOI
10.1587/transinf.E93.D.2491
Tipo de Manuscrito
Special Section PAPER (Special Section on Processing Natural Speech Variability for Improved Verbal Human-Computer Interaction)
Categoria
Conversão de voz

autores

Palavra-chave