A funcionalidade de pesquisa está em construção.
A funcionalidade de pesquisa está em construção.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Recognition of Connected Digit Speech in Japanese Collected over the Telephone Network Reconhecimento de fala de dígitos conectados em japonês coletada pela rede telefônica

Hisashi KAWAI, Tohru SHIMIZU, Norio HIGUCHI

  • Exibições de texto completo

    0

  • Cite isto

Resumo:

Este artigo descreve resultados experimentais sobre reconhecimento de fala de dígitos conectados baseado em HMM de palavras inteiras em japonês, com foco especial no tamanho dos dados de treinamento e no problema de "ovelhas e cabras". Os dados de treinamento compreendem 757000 dígitos pronunciados por 2000 falantes, enquanto os dados de teste compreendem 399000 dígitos pronunciados por 1700 falantes. A melhor taxa de erro de palavras para strings de comprimento desconhecido foi de 1.64% obtida usando HMMs dependentes de contexto. A taxa de erro de palavras foi medida para vários subconjuntos dos dados de treinamento reduzidos tanto no número de falantes (s) e o número de enunciados por locutor (u). Como resultado, uma fórmula empírica de s[{minutos(0.62s0.75, u)}0.74 + {max(0, u-0.62s0.75)}0.27] = D(Ew) foi desenvolvido, onde Ew e D(Ew) designam a taxa de erro de palavras e o tamanho efetivo dos dados, respectivamente. Foram realizadas análises de vários aspectos dos falantes de baixo desempenho, responsáveis ​​pela maior parte dos erros de reconhecimento. Também foram feitas tentativas para melhorar seu desempenho de reconhecimento. Verificou-se que 33% dos alto-falantes de baixo desempenho são melhorados para o nível normal pelo agrupamento de alto-falantes centrado em cada alto-falante de baixo desempenho.

Publicação
IEICE TRANSACTIONS on Information Vol.E84-D No.3 pp.374-383
Data de publicação
2001/03/01
Publicitada
ISSN online
DOI
Tipo de Manuscrito
PAPER
Categoria
Fala e Audição

autores

Palavra-chave