A funcionalidade de pesquisa está em construção.
A funcionalidade de pesquisa está em construção.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Integration of Multiple Bilingually-Trained Segmentation Schemes into Statistical Machine Translation Integração de vários esquemas de segmentação treinados bilíngues na tradução automática estatística

Michael PAUL, Andrew FINCH, Eiichiro SUMITA

  • Exibições de texto completo

    0

  • Cite isto

Resumo:

Este artigo propõe um algoritmo de segmentação de palavras não supervisionado que identifica limites de palavras em texto de idioma de origem contínuo, a fim de melhorar a qualidade da tradução de abordagens de tradução automática estatística (SMT). O método pode ser aplicado a qualquer par de idiomas em que o idioma de origem não seja segmentado e a segmentação do idioma de destino seja conhecida. Na primeira etapa, um método iterativo de bootstrap é aplicado para aprender múltiplos esquemas de segmentação que são consistentes com as segmentações frasais de um sistema SMT treinado no bitexto resegmentado. Na segunda etapa, vários esquemas de segmentação são integrados em um único sistema SMT, caracterizando o lado do idioma de origem e mesclando pares de tradução idênticos de modelos SMT segmentados de forma diferente. Os resultados experimentais da tradução de cinco línguas asiáticas para o inglês revelaram que o método proposto de integração de múltiplos esquemas de segmentação supera os modelos SMT treinados em qualquer uma das segmentações de palavras aprendidas e tem um desempenho comparável às ferramentas de segmentação disponíveis monolíngues.

Publicação
IEICE TRANSACTIONS on Information Vol.E94-D No.3 pp.690-697
Data de publicação
2011/03/01
Publicitada
ISSN online
1745-1361
DOI
10.1587/transinf.E94.D.690
Tipo de Manuscrito
PAPER
Categoria
Processamento de Linguagem Natural

autores

Palavra-chave