A funcionalidade de pesquisa está em construção.
A funcionalidade de pesquisa está em construção.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

INmfCA Algorithm for Training of Nonparallel Voice Conversion Systems Based on Non-Negative Matrix Factorization Algoritmo INmfCA para Treinamento de Sistemas de Conversão de Voz Não Paralela Baseado em Fatoração de Matriz Não Negativa

Hitoshi SUDA, Gaku KOTANI, Daisuke SAITO

  • Exibições de texto completo

    0

  • Cite isto

Resumo:

Neste artigo, propomos uma nova estrutura de treinamento denominada algoritmo INmfCA para sistemas de conversão de voz não paralela (VC). Para treinar modelos de conversão, as estruturas tradicionais de VC exigem corpora paralelos, nos quais os falantes de origem e de destino pronunciam os mesmos conteúdos linguísticos. Embora as estruturas tenham alcançado VC de alta qualidade, elas não são aplicáveis ​​em situações onde corpora paralelos não estão disponíveis. Para adquirir modelos de conversão sem corpora paralelos, métodos não paralelos são amplamente estudados. Embora as estruturas atinjam VC em condições não paralelas, elas tendem a exigir um grande conhecimento prévio ou muitas declarações de treinamento. Isso se deve à dificuldade em desembaraçar as informações linguísticas e do falante sem uma grande quantidade de dados. Neste trabalho, abordamos esse problema explorando o NMF, que pode fatorar características acústicas em componentes variantes e invariantes no tempo de maneira não supervisionada. O método adquire alinhamento entre as características acústicas dos enunciados do locutor fonte e um dicionário alvo e usa o alinhamento obtido como ativação do NMF para treinar o dicionário do locutor fonte sem corpora paralelos. O método de aquisição é baseado no algoritmo INCA, que obtém o alinhamento de corpora não paralelos. Em contraste com o algoritmo INCA, o alinhamento não se restringe às amostras observadas e, portanto, o método proposto pode utilizar eficientemente pequenos corpora não paralelos. Os resultados de experimentos subjetivos mostram que a combinação do algoritmo proposto e do algoritmo INCA superou não apenas uma estrutura não paralela baseada em INCA, mas também o CycleGAN-VC, que executa VC não paralelo sem quaisquer dados de treinamento adicionais. Os resultados também indicam que uma estrutura VC one-shot, que não precisa treinar alto-falantes fonte, pode ser construída com base no método proposto.

Publicação
IEICE TRANSACTIONS on Information Vol.E105-D No.6 pp.1196-1210
Data de publicação
2022/06/01
Publicitada
2022/03/03
ISSN online
1745-1361
DOI
10.1587/transinf.2021EDP7234
Tipo de Manuscrito
PAPER
Categoria
Fala e Audição

autores

Hitoshi SUDA
  the University of Tokyo
Gaku KOTANI
  the University of Tokyo
Daisuke SAITO
  the University of Tokyo

Palavra-chave