A funcionalidade de pesquisa está em construção.
A funcionalidade de pesquisa está em construção.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Speaker-Phonetic I-Vector Modeling for Text-Dependent Speaker Verification with Random Digit Strings Modelagem de vetor I fonético de alto-falante para verificação de alto-falante dependente de texto com sequências de dígitos aleatórios

Shengyu YAO, Ruohua ZHOU, Pengyuan ZHANG

  • Exibições de texto completo

    0

  • Cite isto

Resumo:

Este artigo propõe um método de modelagem i-vetor fonética do locutor para verificação do falante dependente de texto com cadeias de dígitos aleatórios, nas quais as declarações de inscrição e de teste não são da mesma frase. O núcleo do método proposto é fazer uso de informações de alinhamento de dígitos na estrutura de i-vetores. Ao utilizar informações de alinhamento de força, as pontuações de verificação das tentativas de teste podem ser calculadas na situação de frase fixa, na qual os segmentos de fala comparados entre as declarações de inscrição e de teste têm o mesmo conteúdo fonético. Especificamente, as expressões são segmentadas em dígitos e, em seguida, um extrator de vetor i exclusivo com restrição fonética é aplicado para obter representação da variabilidade do locutor e do canal para cada segmento de dígito. A análise discriminante linear probabilística (PLDA) e a norma s são posteriormente usadas para compensação de canal e normalização de pontuação, respectivamente. A pontuação final é obtida combinando as pontuações dos dígitos, que são calculadas pela pontuação de segmentos de dígitos individuais do enunciado do teste em relação aos correspondentes da inscrição. Os resultados experimentais na Parte 3 do banco de dados Robust Speaker Recognition (RSR2015) demonstram que a abordagem proposta supera significativamente o GMM-UBM em 52.3% e 53.5% em relação à taxa de erro igual (EER) para homens e mulheres, respectivamente.

Publicação
IEICE TRANSACTIONS on Information Vol.E102-D No.2 pp.346-354
Data de publicação
2019/02/01
Publicitada
2018/11/19
ISSN online
1745-1361
DOI
10.1587/transinf.2018EDP7310
Tipo de Manuscrito
PAPER
Categoria
Fala e Audição

autores

Shengyu YAO
  Chinese Academy of Sciences,University of Chinese Academy of Sciences
Ruohua ZHOU
  Chinese Academy of Sciences,University of Chinese Academy of Sciences
Pengyuan ZHANG
  Chinese Academy of Sciences,University of Chinese Academy of Sciences

Palavra-chave