A funcionalidade de pesquisa está em construção.
A funcionalidade de pesquisa está em construção.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Improved Reference Speaker Weighting Using Aspect Model Ponderação aprimorada do alto-falante de referência usando modelo de aspecto

Seong-Jun HAHM, Yuichi OHKAWA, Masashi ITO, Motoyuki SUZUKI, Akinori ITO, Shozo MAKINO

  • Exibições de texto completo

    0

  • Cite isto

Resumo:

Propomos uma abordagem aprimorada de ponderação de alto-falantes de referência (RSW) e de cluster de alto-falantes (SCW) que usa um modelo de aspecto. O conceito da abordagem é que o modelo adaptado é uma combinação linear de alguns modelos de referência latentes obtidos de um conjunto de alto-falantes de referência. O modelo de aspecto possui características específicas do espaço latente que diferem dos vetores de base ortogonais da voz própria. O modelo de aspecto é um modelo de "mistura de mistura". Primeiro calculamos um pequeno número de modelos de referência latentes como misturas de distribuições dos modelos do falante de referência e, em seguida, os modelos de referência latentes são misturados para obter a distribuição adaptada. Os pesos da mistura são calculados com base no algoritmo de maximização de expectativa (EM). Usamos os pesos das misturas obtidos para interpolar os parâmetros médios das distribuições. Tanto o treinamento quanto a adaptação são realizados com base na maximização da probabilidade em relação aos dados de treinamento e adaptação, respectivamente. Conduzimos um experimento contínuo de reconhecimento de fala usando um banco de dados coreano (KAIST-TRADE). Os resultados são comparados aos de um MAP convencional, MLLR, RSW, eigenvoice e SCW. A melhoria absoluta da precisão das palavras de 2.06 pontos foi alcançada usando o método proposto, embora utilizemos apenas 0.3 s de dados de adaptação.

Publicação
IEICE TRANSACTIONS on Information Vol.E93-D No.7 pp.1927-1935
Data de publicação
2010/07/01
Publicitada
ISSN online
1745-1361
DOI
10.1587/transinf.E93.D.1927
Tipo de Manuscrito
PAPER
Categoria
Fala e Audição

autores

Palavra-chave