A funcionalidade de pesquisa está em construção.
A funcionalidade de pesquisa está em construção.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Translation of Untranslatable Words -- Integration of Lexical Approximation and Phrase-Table Extension Techniques into Statistical Machine Translation Tradução de palavras intraduzíveis - Integração de técnicas de aproximação lexical e extensão de tabela de frases na tradução automática estatística

Michael PAUL, Karunesh ARORA, Eiichiro SUMITA

  • Exibições de texto completo

    0

  • Cite isto

Resumo:

Este artigo propõe um método para lidar com palavras fora do vocabulário (OOV) que não podem ser traduzidas usando sistemas convencionais de tradução automática estatística (SMT) baseados em frases. Para uma determinada palavra OOV, técnicas de aproximação lexical são utilizadas para identificar variantes ortográficas e flexionais de palavras que ocorrem nos dados de treinamento. Todas as palavras OOV na frase fonte são então substituídas por variantes de palavras apropriadas encontradas no corpus de treinamento, reduzindo assim o número de palavras OOV na entrada. Além disso, a fim de aumentar a cobertura de tais traduções de palavras, o modelo de tradução SMT é estendido adicionando novas traduções de frases para todas as palavras do idioma de origem que não possuem uma entrada de palavra única na tabela de frases original, mas apenas aparecem no contexto de frases maiores. A eficácia dos métodos propostos é investigada para a tradução de hindi para inglês, chinês e japonês.

Publicação
IEICE TRANSACTIONS on Information Vol.E92-D No.12 pp.2378-2385
Data de publicação
2009/12/01
Publicitada
ISSN online
1745-1361
DOI
10.1587/transinf.E92.D.2378
Tipo de Manuscrito
Special Section PAPER (Special Section on Natural Language Processing and its Applications)
Categoria
Maquina de tradução

autores

Palavra-chave