A funcionalidade de pesquisa está em construção.
A funcionalidade de pesquisa está em construção.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Continuous Noise Masking Based Vocoder for Statistical Parametric Speech Synthesis Vocoder baseado em mascaramento de ruído contínuo para síntese de fala paramétrica estatística

Mohammed Salah AL-RADHI, Tamás Gábor CSAPÓ, Géza NÉMETH

  • Exibições de texto completo

    0

  • Cite isto

Resumo:

Neste artigo propomos um método denominado “mascaramento de ruído contínuo (cNM)” que permite eliminar zumbidos residuais em um vocoder contínuo, ou seja, em que todos os parâmetros são contínuos e oferece um sistema simples e flexível de análise e síntese de fala. Os codificadores de voz paramétricos tradicionais geralmente mostram uma deterioração perceptível na qualidade da fala sintetizada devido a diferentes algoritmos de processamento. Além disso, uma ressíntese de ruído imprecisa (por exemplo, soprosidade ou rouquidão) também é considerada uma das principais causas subjacentes à degradação do desempenho, levando a transientes ruidosos e descontinuidade temporal na fala sintetizada. Para superar esses problemas, um novo cNM é desenvolvido baseado no desvio de distorção de fase, a fim de reduzir o efeito perceptual do ruído residual, permitindo uma reconstrução adequada das características do ruído, e modelar melhor os segmentos de voz rangentes que podem ocorrer na fala natural. Para este fim, o cNM é projetado para manter apenas os componentes de voz sob uma condição de limiar do cNM enquanto descarta outros. Avaliamos a abordagem proposta e comparamos com vocoders de última geração usando testes de audição objetivos e subjetivos. Resultados experimentais mostram que o método proposto pode reduzir o efeito do ruído residual e pode alcançar a qualidade de outras abordagens sofisticadas como STRAIGHT e modelo de pulso de domínio logarítmico (PML).

Publicação
IEICE TRANSACTIONS on Information Vol.E103-D No.5 pp.1099-1107
Data de publicação
2020/05/01
Publicitada
2020/02/10
ISSN online
1745-1361
DOI
10.1587/transinf.2019EDP7167
Tipo de Manuscrito
PAPER
Categoria
Fala e Audição

autores

Mohammed Salah AL-RADHI
  Budapest University of Technology and Economics
Tamás Gábor CSAPÓ
  Budapest University of Technology and Economics,MTA-ELTE Lendület Lingual Articulation Research Group
Géza NÉMETH
  Budapest University of Technology and Economics

Palavra-chave