A funcionalidade de pesquisa está em construção.
A funcionalidade de pesquisa está em construção.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Unified Likelihood Ratio Estimation for High- to Zero-Frequency N-Grams Estimativa unificada da razão de verossimilhança para frequência alta a zero N-Gramas

Masato KIKUCHI, Kento KAWAKAMI, Kazuho WATANABE, Mitsuo YOSHIDA, Kyoji UMEMURA

  • Exibições de texto completo

    0

  • Cite isto

Resumo:

As razões de verossimilhança (LRs), que são comumente usadas para processamento de dados probabilísticos, são frequentemente estimadas com base nas contagens de frequência de elementos individuais obtidos de amostras. No processamento de linguagem natural, um elemento pode ser uma sequência contínua de N itens, chamados de N-grama, em que cada item é uma palavra, letra, etc. Neste artigo, tentamos estimar LRs com base em Ninformações de frequência de -grama. Uma abordagem de estimativa ingênua que usa apenas Nfrequências de -grama são sensíveis a baixas frequências (raras) N-gramas e não aplicável à frequência zero (não observado) N-gramas; estes são conhecidos como problemas de frequência baixa e zero, respectivamente. Para resolver esses problemas, propomos um método para decompor N-gramas em unidades de itens e, em seguida, aplicando suas frequências junto com o original Nfrequências de -grama. Nosso método pode obter as estimativas de N-gramas usando as frequências unitárias. Embora o uso apenas de frequências unitárias ignore as dependências entre os itens, nosso método aproveita o fato de que certos itens muitas vezes co-ocorrem na prática e, portanto, mantém suas dependências usando o relevante Nfrequências de -grama. Também introduzimos uma regularização para obter uma estimativa robusta para casos raros. N-gramas. Nossos resultados experimentais demonstram que nosso método é eficaz na resolução de ambos os problemas e pode controlar efetivamente as dependências.

Publicação
IEICE TRANSACTIONS on Fundamentals Vol.E104-A No.8 pp.1059-1074
Data de publicação
2021/08/01
Publicitada
2021/02/08
ISSN online
1745-1337
DOI
10.1587/transfun.2020EAP1088
Tipo de Manuscrito
PAPER
Categoria
Ciência de Sistemas Matemáticos

autores

Masato KIKUCHI
  Nagoya Institute of Technology
Kento KAWAKAMI
  LINE Corporation
Kazuho WATANABE
  Toyohashi University of Technology
Mitsuo YOSHIDA
  Toyohashi University of Technology
Kyoji UMEMURA
  Toyohashi University of Technology

Palavra-chave