A funcionalidade de pesquisa está em construção.
A funcionalidade de pesquisa está em construção.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Siamese Transformer for Saliency Prediction Based on Multi-Prior Enhancement and Cross-Modal Attention Collaboration Transformador Siamês para Predição de Saliência Baseado em Aprimoramento Multi-Prioral e Colaboração de Atenção Intermodal

Fazhan YANG, Xingge GUO, Song LIANG, Peipei ZHAO, Shanhua LI

  • Exibições de texto completo

    0

  • Cite isto

Resumo:

A previsão da saliência visual melhorou dramaticamente desde o advento das redes neurais convolucionais (CNN). Embora a CNN atinja um excelente desempenho, ela ainda não consegue aprender bem as informações contextuais globais e de longo alcance e carece de interpretabilidade devido à localidade das operações de convolução. Propusemos um modelo de previsão de saliência baseado em aprimoramento multi-prior e colaboração de atenção intermodal (ME-CAS). Concretamente, projetamos uma arquitetura de rede Siamesa baseada em transformador como espinha dorsal para extração de recursos. Um dos ramos do transformador captura as informações de contexto da imagem sob o mecanismo de autoatenção para obter um mapa de saliência global. Ao mesmo tempo, construímos um módulo de aprendizagem anterior para aprender o viés do centro visual humano antes, o contraste antes e a frequência antes. A entrada multi-anterior para outro ramo siamês para aprender os recursos detalhados dos recursos visuais subjacentes e obter o mapa de saliência das informações locais. Finalmente, usamos um módulo de calibração de atenção para orientar a aprendizagem colaborativa intermodal de informações globais e locais e gerar o mapa de saliência final. Extensos resultados experimentais demonstram que nossa proposta ME-CAS alcança resultados superiores em benchmarks públicos e concorrentes de modelos de previsão de saliência. Além disso, os módulos de aprendizagem multi-anteriores melhoram as imagens, expressam detalhes importantes e interpretam o modelo.

Publicação
IEICE TRANSACTIONS on Information Vol.E106-D No.9 pp.1572-1583
Data de publicação
2023/09/01
Publicitada
2023/06/20
ISSN online
1745-1361
DOI
10.1587/transinf.2022EDP7220
Tipo de Manuscrito
PAPER
Categoria
Reconhecimento de imagem, visão computacional

autores

Fazhan YANG
  China University of Mining and Technology
Xingge GUO
  China University of Mining and Technology
Song LIANG
  China University of Mining and Technology
Peipei ZHAO
  China University of Mining and Technology
Shanhua LI
  China University of Mining and Technology

Palavra-chave