A funcionalidade de pesquisa está em construção.
A funcionalidade de pesquisa está em construção.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Temporal Ensemble SSDLite: Exploiting Temporal Correlation in Video for Accurate Object Detection Temporal Ensemble SSDLite: explorando a correlação temporal em vídeo para detecção precisa de objetos

Lukas NAKAMURA, Hiromitsu AWANO

  • Exibições de texto completo

    0

  • Cite isto

Resumo:

Propomos o “Temporal Ensemble SSDLite”, um novo método para detecção de objetos de vídeo que aumenta a precisão enquanto mantém a velocidade de detecção e o consumo de energia. A detecção de objetos para vídeo está se tornando cada vez mais importante como parte central de aplicações em robótica, direção autônoma e muitos outros campos promissores. Muitas dessas aplicações exigem alta precisão e velocidade para serem viáveis, mas são usadas em ambientes com restrição de computação e energia. Portanto, novos métodos que aumentem o desempenho geral da detecção de objetos de vídeo, ou seja, precisão e velocidade, devem ser desenvolvidos. Para aumentar a precisão, usamos o ensemble, o método de aprendizado de máquina que combina previsões de vários modelos diferentes. A desvantagem do conjunto é o aumento do custo computacional que é proporcional ao número de modelos utilizados. Superamos esse déficit implantando nosso conjunto temporalmente, o que significa que inferimos apenas um único modelo em cada quadro, percorrendo nosso conjunto de modelos em cada quadro. Então, combinamos as previsões para o último N quadros onde N é o número de modelos em nosso conjunto por meio de supressão não máxima. Isto é possível porque os quadros próximos em um vídeo são extremamente semelhantes devido à correlação temporal. Como resultado, aumentamos a precisão através do conjunto, inferindo apenas um único modelo em cada quadro e, portanto, mantendo a velocidade de detecção. Para avaliar a proposta, medimos a precisão, velocidade de detecção e consumo de energia no Google Edge TPU, um acelerador de inferência de aprendizado de máquina, com o conjunto de dados Imagenet VID. Nossos resultados demonstram um aumento de precisão de até 4.9%, mantendo a velocidade de detecção em tempo real e um consumo de energia de 181mJ por imagem.

Publicação
IEICE TRANSACTIONS on Fundamentals Vol.E105-A No.7 pp.1082-1090
Data de publicação
2022/07/01
Publicitada
2022/01/18
ISSN online
1745-1337
DOI
10.1587/transfun.2021EAP1068
Tipo de Manuscrito
PAPER
Categoria
Visão

autores

Lukas NAKAMURA
  Osaka University
Hiromitsu AWANO
  Kyoto University

Palavra-chave