A funcionalidade de pesquisa está em construção.
A funcionalidade de pesquisa está em construção.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Open Access
Prohibited Item Detection Within X-Ray Security Inspection Images Based on an Improved Cascade Network
Abra o Access
Detecção de itens proibidos em imagens de inspeção de segurança por raios X com base em uma rede em cascata aprimorada

Qingqi ZHANG, Xiaoan BAO, Ren WU, Mitsuru NAKATA, Qi-Wei GE

  • Exibições de texto completo

    347

  • Cite isto
  • Free PDF (26.5MB)

Resumo:

A detecção automática de itens proibidos é vital para ajudar a equipe de segurança a ser mais eficiente e, ao mesmo tempo, melhorar o índice de segurança pública. No entanto, a detecção de itens proibidos nas imagens de inspeção de segurança por raios X é limitada por vários fatores, incluindo a distribuição desequilibrada de categorias, a diversidade de escalas de itens proibidos e a sobreposição entre itens. Neste artigo, propomos aproveitar o algoritmo de combinação de Poisson com o operador Canny edge para aliviar ao máximo a distribuição de desequilíbrio de categorias no conjunto de dados de imagens de raios-X. Com base nisso, melhoramos a rede em cascata para lidar com as outras duas dificuldades. Para resolver o problema da diversidade de escala proibida, propomos o método de fusão de recursos Re-BiFPN, que inclui um módulo de agrupamento de pirâmide espacial atrous de atenção coordenada (CA-ASPP) e uma conexão recursiva. O módulo CA-ASPP pode extrair implicitamente informações de reconhecimento de direção e de posição do mapa de recursos. A conexão recursiva alimenta o mapa de recursos multiescala processado pelo módulo CA-ASPP para a camada backbone de baixo para cima para extração adicional de recursos multiescala. Além disso, uma função de perda Rep-CIoU foi projetada para resolver o problema de sobreposição em imagens de raios-X. Extensos resultados experimentais demonstram que nosso método pode identificar com sucesso dez tipos de itens proibidos, como facas, tesouras, pressão, etc. e atinge 83.4% de mAP, o que é 3.8% superior à rede em cascata original. Além disso, nosso método supera outros métodos convencionais por uma margem significativa.

Publicação
IEICE TRANSACTIONS on Fundamentals Vol.E107-A No.5 pp.813-824
Data de publicação
2024/05/01
Publicitada
2024/01/16
ISSN online
1745-1337
DOI
10.1587/transfun.2023MAP0007
Tipo de Manuscrito
Special Section PAPER (Special Section on Mathematical Systems Science and its Applications)
Categoria

1. Introdução

À medida que crescem as populações urbanas e a densidade de multidões nos centros de transporte público, a inspeção de segurança torna-se cada vez mais importante na proteção da segurança pública [1]. A máquina de inspeção de segurança é o equipamento de inspeção de segurança mais amplamente utilizado [2]. Ele usa tecnologia de raios X para escanear o pacote de um viajante e gerar uma imagem de irradiação em tempo real. Atualmente, a maior parte do trabalho de inspeção de segurança ainda depende de pessoal de segurança altamente treinado para identificar cuidadosamente se há algum item proibido na imagem de irradiação [3], [4]. Como o pessoal de segurança desempenha uma profissão exigente, estar num ambiente de trabalho de alta pressão durante períodos prolongados pode causar falsa deteção ou falha na deteção de itens proibidos, o que pode ameaçar seriamente a segurança pública [5]. Além disso, as mudanças frequentes de turno consomem muitos recursos humanos e aumentam os custos laborais.

Com o desenvolvimento substancial das tecnologias de inteligência artificial, a inspeção automática de segurança de itens proibidos tornou-se possível nos últimos anos. Algoritmos de aprendizado de máquina e aprendizado profundo são os principais métodos para detecção de itens proibidos em imagens de inspeção de segurança por raios X. Muhammet et al. [6] utilizam a estrutura Bag of Visual Word (BoVW) com estrutura SVMs para classificar itens proibidos. Mery et al. [7] propuseram usar um método baseado em múltiplas visualizações de raios X para detectar itens regulares proibidos com formas e tamanhos bem definidos. A principal desvantagem dessas abordagens de aprendizado de máquina é a dependência de recursos artesanais que exigem engenharia manual. Wang et al. [8] e Miao et al. [9] propuseram uma rede de atenção densa seletiva e uma abordagem de refinamento hierárquico com equilíbrio de classes (CHR), respectivamente. Esses métodos de aprendizado profundo alcançaram melhor desempenho em comparação aos métodos de aprendizado de máquina.

No entanto, três desafios ainda nos atraem na tarefa de detecção de itens proibidos. Primeiro, o conjunto de dados de inspeção de segurança por raios X tem uma distribuição desequilibrada de categorias. O aprendizado profundo como técnica padrão baseada em dados, uma distribuição equilibrada de categorias no conjunto de dados é a base do algoritmo para obter melhor desempenho. O conjunto de dados usado neste artigo, conforme mostrado na Fig. 1, consiste em duas partes fornecidas pela iFLYTEK CO.LTD: imagens de raios X de todo o pacote e imagens de raios X de um item proibido separado. Para aliviar o problema de desequilíbrio de categoria, propomos aproveitar o algoritmo de combinação de Poisson com o operador Canny edge para fundir uma imagem de raio X de um item proibido separado com uma imagem de raio X de todo o pacote. Este método de aprimoramento de dados pode fundir naturalmente as duas imagens de raios X com ruído mínimo e aumentar a diversidade e complexidade das amostras.

FIG. 1  Os exemplos de visualização do conjunto de dados de inspeção de segurança por raios X.

Em segundo lugar, a diversidade de escalas de itens proibidos. O tamanho dos itens proibidos na mesma imagem de raio X varia. Também há variação no tamanho do mesmo tipo de item proibido em diferentes imagens de raios X. Para enfrentar o desafio de detectar itens proibidos em diversas escalas, propomos uma abordagem chamada Re-BiFPN. Para efeito de comparação, uma rede em cascata [10] mescla vários detectores e aproveita FPN [11] para extração de recursos. Ao contrário do FPN, que se concentra principalmente no gerenciamento de recursos multiescala por meio de agregação direta, o Re-BiFPN apresenta um novo avanço teórico. Ele estabelece uma estrutura recursiva multiescala e incorpora as informações de coordenadas de itens proibidos nas camadas de feição. Este design exclusivo permite que nosso modelo refine informações em várias escalas de forma iterativa, aprimorando as representações em várias escalas. Além disso, equipa o modelo com a capacidade de discernir as posições relativas e as relações espaciais entre os itens proibidos em diferentes escalas.

Terceiro, o problema da sobreposição de itens proibidos tem recebido a atenção da maioria dos pesquisadores, como [12]-[14]. Na detecção de itens proibidos, entretanto, nenhuma função de perda foi projetada para esse problema. Como a métrica de avaliação para a tarefa de detecção de itens proibidos é IoU (Intersection over Union), a função de perda na rede em cascata original, que calcula a perda dos quatro pontos da caixa de predição, é inadequada para esta tarefa. Projetamos uma nova função de perda, Rep-CIoU, para tornar o modelo mais robusto para itens sobrepostos, que considera a IoU entre múltiplas caixas de predição e a distância do centróide entre a caixa de predição e a verdade básica. Ele pode efetivamente impedir que várias caixas de predição sejam filtradas por NMS (supressão não máxima) quando a IoU gerada por uma caixa de predição específica e outras caixas de predição adjacentes for grande ou a distância de seus centróides for pequena.

Em resumo, as contribuições deste artigo são as seguintes: (1) Propomos utilizar o algoritmo de mistura de Poisson com o operador Canny edge para fundir uma imagem de raios X de um item proibido separado com uma imagem de raios X de todo o pacote , que pode fundir naturalmente as duas imagens de raios X com ruído mínimo e aumentar a diversidade e complexidade das amostras. (2) Propomos o método de fusão de recursos Re-BiFPN, que inclui um módulo CA-ASPP e uma conexão recursiva. O método pode aprender as informações de coordenadas implícitas nos mapas de recursos, ao mesmo tempo que melhora a capacidade da rede de extrair recursos em múltiplas escalas. (3) Projetamos uma nova função de perda, Rep-CIoU, para tornar o modelo mais robusto para itens sobrepostos, que considera o IoU entre múltiplas caixas de predição e a distância do centróide entre a caixa de predição e a verdade básica. Esta função de perda pode efetivamente reduzir a detecção perdida devido à sobreposição.

2. Trabalhos Relacionados

Nesta seção, apresentamos trabalhos anteriores relacionados que usam aprendizado de máquina, bem como algoritmos de aprendizado profundo para detectar itens proibidos.

2.1 Métodos de detecção baseados em aprendizado de máquina

Como métodos baseados em aprendizado de máquina, Muhammet et al. [6] sugeriram o uso da estrutura BoVW (Bag of Visual Word) combinada com o algoritmo SVM para detectar itens proibidos. Mery et al. [7] propuseram um método baseado em múltiplas visualizações de raios X para detectar itens regularmente proibidos. O método consiste em duas etapas: “estimativa de estrutura”, para obtenção de um modelo geométrico das múltiplas vistas do objeto a ser inspecionado (bagagem); e “detecção de peças”, para detectar as peças de interesse (itens proibidos). Inspirado em [6] e nas vantagens das redes neurais, Akcay et al. [15] empregaram um paradigma de aprendizagem por transferência combinado com um SVM de modo que uma CNN pré-treinada possa ser otimizada explicitamente como um processo secundário posterior que visa este domínio de aplicação específico. Roomi et al. [16] classificadores KNN fuzzy treinados foram treinados com descritores contextuais e polinômios de Zernike para estudar a detecção de pistola, mas apenas quinze exemplos de imagens foram avaliados.

No entanto, esses métodos são projetados principalmente para classificação de imagens e, portanto, têm fraca capacidade de extrair características de imagens de raios X.

2.2 Métodos de detecção baseados em aprendizagem profunda

Com o desenvolvimento da inteligência artificial, tornou-se possível aplicar algoritmos de aprendizagem profunda à detecção de itens proibidos. Além dos algoritmos de aprendizado de máquina [15], Akcay et al. [17] também estudaram estratégias de aprendizagem profunda para melhorar ainda mais o desempenho de conjuntos de dados desordenados. Eles exploraram a aplicabilidade de vários paradigmas de detecção baseados em CNN e ilustraram o desempenho comparativo dessas técnicas, incluindo CNN baseada em janela deslizante, CNNs baseadas em região mais rápida e redes totalmente convolucionais baseadas em região. Wang et al. [8] coletaram um conjunto de dados denominado PIDray e propuseram uma rede seletiva de atenção densa que consiste em um módulo de atenção densa e um módulo de refinamento de dependência. O módulo de atenção densa é usado para capturar os recursos discriminativos, e o módulo de refinamento de dependência é construído para explorar as dependências entre recursos multiescala. Miao et al. [9] coletaram um conjunto de dados denominado SIX-ray e apresentaram um modelo CHR, que atinge o equilíbrio de classe por meio de uma função de perda balanceada por classe. O modelo CHR alcança uma notável vantagem de detecção no conjunto de dados com poucas amostras de treinamento positivas. No entanto, essas abordagens precisam prestar mais atenção ao problema de desequilíbrio de categorias do conjunto de dados de imagens de raios X.

Para conhecer as diferentes escalas de itens proibidos, Zhang et al. [18] propuseram uma nova rede neural de multivisualização de convolução assimétrica (ACMNet) que inclui um pequeno módulo de convolução assimétrico, um módulo de multivisualização de convolução detalhado e uma estratégia de fusão do mapa de características multiescala. No entanto, a partir dos resultados experimentais, a precisão da detecção de alguns alvos não foi significativamente melhorada. A razão fundamental é que existe uma lacuna semântica significativa entre cada camada de feição. Além disso, há uma falta de tratamento de informações de coordenadas de itens proibidos em mapas de características de diferentes escalas. As pirâmides de recursos são usadas principalmente para melhorar a lacuna semântica na detecção de alvos [19]-[22]. No entanto, ao contrário dos métodos típicos de pirâmide de características [23], [24] projetados para imagens coloridas, nosso Re-BiFPN é adaptado para conjuntos de dados de segurança de raios X, que contêm predominantemente imagens de raios X monocromáticas, e constrói uma estrutura recursiva em várias escalas. e possui sensibilidade às coordenadas de itens proibidos nessas imagens.

A função de perda para a tarefa de detecção de alvo consiste em duas partes, perda de classificação e perda de regressão de caixa delimitadora. A perda de regressão da caixa delimitadora para a tarefa de detecção de alvo sofreu a evolução de Smooth L1 Loss [25], IoU Loss [26], Repulsion Loss [27], GIoU Loss [28], DIoU Loss [29] e CIoU Loss [30 ] nos últimos anos. A perda de CIoU pode avaliar a área de sobreposição (ou seja, IoU), a distância do centróide e a proporção entre a caixa de previsão e a verdade fundamental. No entanto, para o problema de sobreposição, a perda de CIoU ignora o relacionamento entre uma caixa de predição específica e outras caixas de predição próximas a ela. Até onde sabemos, nenhuma função de perda foi projetada para o problema de sobreposição na detecção de itens proibidos.

Através da análise acima desses trabalhos de aprendizagem profunda relacionados, abordamos esse problema de detecção de itens proibidos (a) prestando mais atenção ao problema de desequilíbrio de categoria do conjunto de dados de imagens de raios X, (b) alcançando conectividade em escala cruzada mais eficiente e fusão de recursos ponderados projetar um método de fusão de recursos, Re-BiFPN, e (c) projetar uma nova função de perda, Rep-CIoU, para tornar o modelo mais robusto para itens sobrepostos.

3. Método proposto

Com base nos resultados analíticos da última seção, propomos aqui um método para detectar itens proibidos em imagens de inspeção de segurança por raios X.

3.1 A Estrutura Geral do Nosso Método

Nosso método é uma arquitetura de detecção de alvos de vários estágios que consiste em uma série de detectores treinados em limites de IoU que são continuamente aprimorados. O processo em cascata pode alterar continuamente a distribuição das caixas candidatas e reamostra-las ajustando os limites [10]. A estrutura geral do nosso método é mostrada na Fig.

FIG. 2  A estrutura geral do nosso método.

Construímos o conjunto de treinamento fundindo as imagens de raios X de um único item proibido com as imagens de raios X de todo o pacote. Para maior clareza, marcamos artificialmente a localização de um único item proibido na imagem fundida com um círculo vermelho, conforme mostrado no “Conjunto de treinamento” da Fig. 2. Nosso método emprega ResNeXt-101 (32x4d) [31] como o rede principal. Os caracteres na seta e os círculos brancos indicam o mapa de características do backbone. Os círculos coloridos indicam os recursos multiescala em nossa proposta Re-BiFPN. A seta para cima no Re-BiFPN indica redução da amostragem; a seta para baixo indica amostragem ascendente; seta horizontal e seta curva indicam operações de conexão; a seta vermelha é uma conexão recursiva. O CA-ASPP é um módulo de agrupamento de pirâmide espacial de atenção coordenada. RPN é a rede de proposta regional. “pooling” é a extração de recursos por região. “B0” é proposta em todas as arquiteturas. O “Rep-CIoU” é nossa função de perda de regressão de caixa delimitadora proposta. E “C” é a função de perda de classificação.

3.2 Tratamento de Dados

A questão do desequilíbrio de categorias refere-se a uma situação num conjunto de dados de treino onde existe uma disparidade significativa no número de amostras entre diferentes categorias. Este desequilíbrio pode fazer com que o modelo otimize excessivamente para a categoria majoritária, negligenciando a categoria minoritária, reduzindo assim a capacidade de generalização do modelo. No conjunto de dados de inspeção de segurança por raios X, o desequilíbrio de categorias pode resultar de taxas de ocorrência muito mais elevadas de certos itens proibidos, como facas e isqueiros, em comparação com outros. Além disso, obter imagens de raios X de itens proibidos específicos, como fogos de artifício e estilingues, torna-se mais desafiador devido à sua natureza perigosa e raridade. Para abordar a distribuição de desequilíbrio de categorias, propomos a utilização do algoritmo de mistura de Poisson [32] em conjunto com o operador Canny edge. Este método visa mitigar o problema de desequilíbrio de categoria, fundindo imagens de raios X de itens proibidos individuais com imagens de embalagens inteiras.

A imagem na Fig. 1 (b) é a imagem fonte para a mistura de Poisson. Primeiro, aproveitamos a excelente capacidade de detecção de contorno do operador Canny Edge para extrair as informações de contorno do item proibido, evitando assim a introdução de ruído fora de contorno. A operação na imagem de origem é mostrada na Fig. 3. A imagem de origem é girada ou redimensionada aleatoriamente. A faixa de rotação aleatória é \([0, 360^\circ]\). A faixa de escala aleatória é \(\frac{1}{n}\) vezes o comprimento e a largura da imagem original, \(n\in \left \{ n|1\le n\le 10, n\in Z \right \}\). Em seguida, a detecção do contorno é realizada e outras partes interferentes além do contorno alvo são removidas para obter uma imagem a ser fundida.

FIG. 3  A detecção de contorno é realizada na imagem de origem utilizando o operador Canny edge. Para maior clareza da apresentação, marcamos as bordas da imagem de origem em azul. Após o processamento pelo operador Canny Edge, o limite da imagem a ser fundida é o contorno do item proibido.

Após a detecção do contorno, utilizamos o algoritmo de mistura de Poisson para maximizar a retenção da informação do gradiente da imagem a ser fundida para tornar o limite de fusão mais suave. A mistura de Poisson da Figura 3 (b) e Figura 4 (a) é realizada. Finalmente, uma imagem é obtida após a mistura de Poisson, como mostrado na Figura 4 (b).

FIG. 4  Um exemplo de fusão de imagens utilizando a combinação de Poisson com o operador Canny edge. Para maior clareza, também mostramos a imagem obtida utilizando a operação de adição geral, denotada como (c), a imagem real com oclusão no conjunto de dados, denotada como (d), e as comparamos com (b).

Comparado com a operação de adição, conforme mostrado na Figura 4 (b) e Figura 4 (c), nosso método oferece qualidade superior de fusão de imagem e melhores efeitos de mistura de bordas. Essa vantagem decorre da consideração da mistura de Poisson sobre as discrepâncias de gradiente entre as imagens de destino e de origem, permitindo uma fusão mais natural que evita mudanças abruptas nas bordas e nas cores. Por outro lado, a operação de adição envolve apenas a soma direta dos valores dos pixels, o que pode levar a resultados de fusão de imagens menos suaves e naturais.

Na Figura 4 (d), exibimos uma imagem real com oclusão. Tanto o objeto marcado em vermelho na Figura 4 (d) quanto o objeto mesclado na Figura 4 (b) representam Zippooil. É evidente que a imagem gerada pelo nosso método reproduz a oclusão quase tão precisamente quanto a imagem real. Além disso, a imagem produzida pelo nosso método mantém detalhes de bordas semelhantes aos da imagem real e evita transições abruptas de bordas e cores.

Empregamos o Índice de Similaridade Estrutural (SSIM) para avaliar quantitativamente a similaridade e preservação estrutural entre imagens antes e depois de cada operação de mistura de Poisson, conforme mostrado na Fig. 5. SSIM é uma métrica eficaz para avaliar a qualidade da imagem e é frequentemente usada para medir o semelhança entre duas imagens em termos de diferenças de nível de pixel, coerência estrutural e texturas. Os achados, apresentados na Figura 5, mostram valores elevados de SSIM. O maior valor de SSIM alcançado é de 98.82%, o menor é de 93.03% e a média é de 95.50%. Essas figuras ressaltam uma semelhança considerável entre as imagens antes e depois da mistura de Poisson, especialmente no que diz respeito a texturas, estrutura e detalhes intrincados.

FIG. 5  Gráfico de linhas do Índice de Similaridade Estrutural (SSIM) para cada imagem antes e depois da mistura de Poisson. O valor máximo do SSIM chega a 98.82%, o mínimo é 93.03%, com média de 95.50%. O ponto marcado em vermelho representa o valor SSIM das imagens antes e depois da mistura de Poisson mostrada na Fig.

Analisamos amostras antes e depois da aplicação do nosso método, conforme ilustrado na Figura 6. A partir desta figura, fica evidente que o uso do nosso método resulta em um aumento substancial nas contagens de amostras para cinco categorias: Fogos de artifício, Algemas, Esmalte, Estilingue e Zippool. Além disso, com exceção da faca e do isqueiro, que são mais comuns e, portanto, mais fáceis de coletar em grandes quantidades, a distribuição da amostra entre as categorias parece relativamente equilibrada. É fundamental ressaltar que nosso método é utilizado apenas durante a fase de treinamento do modelo, enquanto a avaliação é realizada a partir das imagens originais.

FIG. 6  Distribuição das categorias de itens proibidos antes e depois da mistura de Poisson.

3.3 Fusão de recursos Re-BiFPN

Para melhorar a capacidade da rede de aprender recursos em várias escalas de itens proibidos, propomos o método de fusão de recursos Re-BiFPN, que alcança conectividade em escala cruzada mais eficiente e fusão de recursos ponderada. O Re-BiFPN inclui uma conexão recursiva e um módulo CA-ASPP.

A Figura 7 (a) mostra a estrutura do Re-BiFPN proposta neste artigo. O Re-BiFPN conecta as camadas do BiFPN à rede backbone bottom-up por meio de conexões recursivas adicionais para formar uma estrutura recursiva. A seta vermelha na Fig. 7 (a) é a conexão recursiva. Especificamente, esta conexão recursiva traz os recursos com informações ricas em várias escalas de volta para a rede backbone de nível inferior, que não é rica o suficiente em informações em várias escalas, melhorando assim a representação dos recursos para obter conectividade eficiente em escala cruzada e recursos ponderados. fusão. A Figura 7 (b) é a vista expandida da Figura 7 (a).

FIG. 7  A estrutura do Re-BiFPN e a visão ampliada. Os círculos brancos representam os mapas de características extraídos pelo backbone. Os círculos coloridos indicam os recursos multiescala na estrutura Re-BiFPN.

A estrutura do módulo CA-ASPP é mostrada na Fig. 8. O módulo CA-ASPP pega os recursos de saída da primeira estrutura BiFPN como entrada e os converte nos recursos usados ​​na segunda rede backbone bottom-up na Fig. b). Simultaneamente, ele captura informações entre canais, com reconhecimento de direção e sensíveis à posição para ajudar o modelo a localizar e identificar itens proibidos.

FIG. 8  A estrutura do módulo CA-ASPP.

Conforme mostrado na Fig. 8, além de \(1 \times 1 Conv\) e \(1 \times 1 Pooling\), montamos \(3 \times 3 Conv\) convolução dilatada com taxa de expansão de 4, 8 e 12 para capturar informações em várias escalas nos mapas de características. E então, os dois vetores são obtidos por agrupamento médio para as direções horizontal e vertical, respectivamente. Esses dois vetores com informações incorporadas com reconhecimento de direção e sensíveis à posição são codificados como dois mapas de atenção, cada um capturando as dependências de longo alcance do mapa de recursos de entrada ao longo de uma direção espacial. A operação Concat e a operação BN são realizadas nesses dois vetores. A seguir, é realizada a operação de divisão e obtidos os pesos após a ativação da função Sigmóide. Por fim, os pesos são adicionados ao \(C \times H \times W\) mapas de recursos.

Expressão matemática da estrutura Re-BiFPN: Deixei \(P_{i}^{td}\) e \(P_{i}^{out}\) denotam a camada de recursos intermediária e a camada de recursos de saída da primeira estrutura BiFPN, respectivamente. \(Resize\) denota amostragem ascendente e amostragem descendente. Ambos \(w_{i}\) e \(w_{i}^{'}\) denotam pesos que podem ser aprendidos. \(P_{i}^{td}\) e \(P_{i}^{out}\) são calculados de acordo com a Eq. (1) e Eq. (2), respectivamente. Deixar \(R_{i}\) denotam a transformação do recurso antes de conectá-lo à rede backbone bottom-up. Deixar \(F_{i}^{td}\) representam a camada de recursos intermediária da segunda estrutura BiFPN. Deixar \(F_{i}^{out}\) representam os recursos da camada de saída da segunda estrutura BiFPN. Então, os recursos da camada de recursos intermediária e da camada de saída da segunda estrutura BiFPN podem ser derivados de acordo com a Eq. (3) e Eq. (4), respectivamente. Para evitar que o divisor seja zero definido \(\varepsilon\) na fórmula para uma pequena constante. O módulo de fusão na Fig. 7 (b) é usado para fundir \(P_{i}^{out}\) e \(F_{i}^{out}\) junto. Para melhorar ainda mais a eficiência, o processo de fusão de recursos do Re-BiFPN usa convolução profundamente separável [33].

\[\begin{equation*} P_{i}^{td}= \begin{cases} \frac{w_{1}P_{i}^{in}+w_{2}Resize(P_{i+1}^{td})}{w_{1}+w_{2}+\varepsilon}& \text{ if } i=4,5\\ \frac{w_{1}P_{i}^{in}+w_{2}Resize(P_{i+1}^{in})}{w_{1}+w_{2}+\varepsilon}& \text{ if } i=6 \end{cases} \tag{1} \end{equation*}\]

\[\begin{equation*} P_{i}^{out}= \begin{cases} \frac{w_{1}^{'}P_{i}^{in}+w_{2}^{'}Resize(P_{i+1}^{td})}{w_{1}^{'}+w_{2}^{'}+\varepsilon}& \text{ if } i=3 \\ \frac{w_{1}^{'}P_{i}^{in}+w_{2}^{'}P_{i}^{td}+w_{3}^{'}Resize(P_{i-1}^{out})}{w_{1}^{'}+w_{2}^{'}+w_{3}^{'}+\varepsilon}& \text{ if } i=4,5,6\\ \frac{w_{1}^{'}P_{i}^{in}+w_{3}^{'}Resize(P_{i-1}^{out})}{w_{1}^{'}+w_{3}^{'}+\varepsilon}& \text{ if } i=7 \end{cases} \tag{2} \end{equation*}\]

\[\begin{equation*} F_{i}^{td}= \begin{cases} \frac{w_{1}{R_{i}}(P_{i}^{out})+w_{2}Resize({R_{i}}(F_{i+1}^{td}))}{w_{1}+w_{2}+\varepsilon}& \text{ if } i=4,5 \\ \frac{w_{1}{R_{i}}(P_{i}^{out})+w_{2}Resize({R_{i}}(P_{i+1}^{out}))}{w_{1}+w_{2}+\varepsilon}& \text{ if } i=6 \end{cases} \tag{3} \end{equation*}\]

\[\begin{equation*} F_{i}^{out}= \begin{cases} \frac{w_{1}^{'}R_{i}(P_{i}^{out})+w_{2}^{'}Resize(F_{i+1}^{td})}{w_{1}^{'}+w_{2}^{'}+\varepsilon}& \text{ if } i=3 \\ \frac{w_{1}^{'}R_{i}(P_{i}^{out})+w_{2}^{'}F_{i}^{td}+w_{3}^{'}Resize(F_{i-1}^{out})}{w_{1}^{'}+w_{2}^{'}+w_{3}^{'}+\varepsilon}& \text{ if } i=4,5,6\\ \frac{w_{1}^{'}R_{i}(P_{i}^{out})+w_{3}^{'}Resize(F_{i-1}^{out})}{w_{1}^{'}+w_{3}^{'}+\varepsilon}& \text{ if } i=7 \end{cases} \tag{4} \end{equation*}\]

3.4 Função de Perda Rep-CIoU

A função de perda usada na rede em cascata original para regressão da caixa delimitadora é a perda Smooth L1, que tem algumas limitações na tarefa de detecção de itens proibidos. Quando a perda Smooth L1 é usada para calcular a caixa delimitadora da detecção do alvo, as perdas dos quatro pontos são primeiro calculadas de forma independente e depois somadas para obter a perda final da caixa delimitadora. Embora a métrica na tarefa de detecção de itens proibidos seja IoU, a perda Smooth L1 de múltiplas caixas de detecção pode ser a mesma, mas a IoU pode variar muito, portanto, a perda Smooth L1 não é aplicável à tarefa neste artigo.

Além disso, a sobreposição de itens proibidos também é um problema que precisa de atenção. Como mostrado na Fig. 9, no caso de sobreposição entre múltiplos alvos, as caixas de predição de múltiplos alvos são regredidas para uma caixa. A razão é que o algoritmo NMS filtra múltiplas caixas de previsão porque elas estão muito próximas. Para tornar cada caixa de previsão o mais próximo possível da verdade básica, mantendo-se longe das regiões de outros alvos, propomos a função de perda Rep-CIoU da Eq. (5). Coeficientes \(\alpha\) e \(\beta\) atuam como pesos para equilibrar o \(L_{CIoU}\) e os votos de \(L_{Rep}\).

\[\begin{equation*} L_{Rep-CIoU}=\alpha \cdot L_{CIoU}+\beta \cdot L_{Rep} \tag{5} \end{equation*}\]

FIG. 9  Exemplo de visualização de erros de detecção de itens proibidos. As caixas verdes são caixas de previsão correta, enquanto as caixas vermelhas são falsos positivos causados ​​por sobreposição. As pontuações de confiança emitidas pelos detectores também estão anexadas. Os erros geralmente ocorrem quando uma caixa de predição muda ligeiramente ou dramaticamente para um objeto verdadeiro vizinho ou limita a união de vários objetos verdadeiros sobrepostos.

O \(L_{CIoU}\) o termo de perda é expresso como Eq. (6). Onde IoU é a razão entre a intersecção e união da caixa de previsão e a verdade básica; \(b\) e \(b_{gt}\) denotam os centróides da caixa de previsão e da verdade básica, respectivamente; \(\rho\) denota a distância euclidiana; \(c\) denota a distância diagonal do retângulo externo mínimo da caixa de previsão e da verdade básica; \(\lambda\) é um parâmetro de compensação positivo, \(\lambda = \frac{v}{(1-IoU)+v}\); \(v\) denota a restrição na relação geométrica da caixa de predição, \(v=\frac{4}{\pi ^{2}}(\arctan \frac{w^{gt}}{h^{gt}}-\arctan \frac{w}{h})^{2}\), \(w\), \(h\), \(w^{gt}\), \(h^{gt}\) representam a altura e largura da caixa de previsão e a altura e largura da verdade básica, respectivamente.

O \(L_{Rep}\) o termo de perda é expresso como Eq. (7). Onde \(Smooth_{ln}\) é uma função de perda de regressão comumente usada e sua expressão é a Eq. (8); \(B^{P_{i}}\) e \(B^{P_{j}}\) denota a caixa de previsão para a caixa de detecção inicial \(P_{i}\) e \(P_{j}\) regressões; \(\text{𝟙}\) é uma função de identidade; \(\varepsilon\) é um pequeno conjunto constante para evitar que o divisor seja zero.

\[\begin{eqnarray*} &&\!\!\!\!\! L_{CIoU}=1-IoU+\frac{\rho^{2}(b,b^{gt})}{c^{2}}+\lambda v \tag{6} \\ &&\!\!\!\!\! L_{Rep}=\frac{\sum_{i\neq j}Smooth_{ln}(IoU(B^{P_{i}},B^{P_{j}}))}{\sum_{i\neq j}\text{𝟙}[IoU(B^{P_{i}},B^{P_{j}})>0]+\varepsilon} \tag{7} \\ &&\!\!\!\!\! Smooth_{ln}=\left\{\begin{matrix} -ln(1-x) & x\le 0 \\ x & x> 0 \end{matrix}\right. \tag{8} \end{eqnarray*}\]

A função de perda Rep-CIoU considera não apenas o IoU entre múltiplas caixas de predição, mas também a distância centróide entre a caixa de predição e a verdade básica. O \(L_{Rep}\) o termo de perda em Rep-CIoU representa o valor de perda gerado entre uma caixa de predição e uma caixa de predição que é adjacente e não é o mesmo alvo. Sua finalidade é excluir outras caixas de detecção com alvos diferentes, tornando o modelo mais robusto a itens sobrepostos. Pode ser encontrado na Eq. (7) que quando a distância IoU entre a caixa de previsão alvo \(P_{i}\) e outras caixas de previsão ao redor \(P_{j}\) for maior, a perda gerada também será maior. Portanto, o \(L_{Rep}\) O termo de perda pode efetivamente impedir que várias caixas de previsão sejam filtradas pelo algoritmo NMS porque estão muito próximas umas das outras e, assim, reduzir a detecção perdida devido à sobreposição.

4. Experimentos

4.1 Conjunto de dados e configuração experimental

Conjunto de dados: O conjunto de dados inclui dez tipos de itens proibidos: faca, tesoura, isqueiro, Zippooil, pressão, estilingue, algemas, esmalte, Powerbank e fogos de artifício. A apresentação visual do conjunto de dados é mostrada na Figura 1 (a). A Figura 1 (b) mostra as imagens de cinco (fogos de artifício, algemas, esmalte, estilingue, zippooil) dos dez tipos de itens proibidos apenas após a irradiação de raios X. Cada uma dessas cinco categorias contém 200 imagens. O conjunto de dados compreende um total de 6,400 imagens, com 5,400 imagens de embalagens inteiras em raios X e 1,000 imagens de itens proibidos individuais em raios X. Para as 5,400 imagens, o conjunto de treinamento representa dois terços e o conjunto de teste representa um terço.

Ambiente experimental: O ambiente experimental neste artigo é mostrado na Tabela 1. Para controlar as variáveis ​​​​experimentais, utilizamos uma rede ResNeXt-32 (101x32d) de 4 grupos como rede backbone com um modelo pré-treinado. Visualizamos e analisamos a proporção da verdade das imagens do conjunto de treinamento, como mostrado na Fig. 10, portanto, é apropriado definir o \(Anchor\_Ratio\) parâmetros na rede RPN para [0.4, 0.6, 0.8, 1.0, 2.0, 3.0].

tabela 1  Parâmetros do ambiente experimental.

FIG. 10  Estatísticas sobre o número de proporções de verdade no conjunto de dados. Os parâmetros da rede são ajustados com base nas estatísticas para tornar a rede mais adequada para o conjunto de dados deste artigo.

Métricas de avaliação: O mAP (mean Average Precision) é comumente usado para avaliar o desempenho de algoritmos de detecção de alvos. O AP (Precisão Média) é usado para medir a precisão de uma determinada categoria. O AP de todas as categorias é calculado como mAP e a expressão é a Eq. (9). Onde N é o número de categorias, \(AP_c\) é o AP da categoria c.

\[\begin{equation*} mAP=\frac{1}{N}\cdot \Sigma AP_{c} \tag{9} \end{equation*}\]

4.2 Experimentos de Ablação do Nosso Método Proposto

Antes dos experimentos de ablação, realizamos experimentos paramétricos da função de perda Rep-CIoU. Para verificar o melhor desempenho da perda Rep-CIoU, coeficientes \(\alpha\) e \(\beta\) atuam como pesos para equilibrar o \(L_{CIoU}\) e os votos de \(L_{Rep}\). Os experimentos paramétricos são baseados no algoritmo Cascade R-CNN original combinado com a função de perda Rep-CIoU proposta para realizar experimentos de comparação com diferentes coeficientes de ponderação. A Tabela 2 mostra nossos resultados com diferentes configurações de \(\alpha\) e \(\beta\). Pode-se concluir da Tabela 2 que diferentes coeficientes de ponderação têm efeitos diferentes na precisão do algoritmo. Empiricamente, \(\alpha\)= 0.6, \(\beta\)=0.4 produz o melhor desempenho.

tabela 2  Resultados experimentais da comparação de diferentes coeficientes de ponderação na função de perda Rep-CIoU.

A seguir, para ilustrar o impacto do nosso método no desempenho da detecção, montamos um experimento de ablação com o Cascade R-CNN original [10] que emprega a função de perda FPN e Smooth L1 como linha de base. A métrica de avaliação é mAP, e os resultados dos experimentos de ablação são mostrados na Tabela 3. Pode-se ver que nossa mistura de Poisson proposta combinada com o método do operador Canny edge, o método de fusão de recursos Re-BiFPN e a perda Rep-CIoU a função melhorou 1.5, 1.6 e 0.8 por cento, respectivamente, o que parece que a soma de 3.9 por cento poderia ser melhorada teoricamente. A Tabela 3 também mostra o AP para cada categoria nos experimentos de ablação. Pode-se descobrir que o AP de alguns itens proibidos em cada experimento de ablação melhorou, indicando que nosso método pode efetivamente melhorar a precisão dos itens proibidos.

tabela 3  Comparações do AP e do mAP ao adicionar a linha de base com a combinação de Poisson, Re-BiFPN e Rep-CIoU.

4.3 Experimentos de comparação entre nosso método e a linha de base

Comparação da precisão da detecção: Nosso método é a combinação de linha de base com o método de mistura de Poisson, o método de fusão de recursos Re-BiFPN e a função de perda Rep-CIoU. Como pode ser observado na Tabela 3, a PA aumentou na maioria das categorias. Os APs de Esmalte e Bombinhas chegam acima de 90%, e os APs de Isqueiro, Pressão, Estilingue, Algemas e Powerbank também chegam acima de 80%. Embora o AP de Knife, Scissors e Zippooil não chegue a 80%, ainda é uma boa melhoria em relação à linha de base. Em comparação com a linha de base, o mAP do nosso método obtém 85.6%, o que representa uma melhoria de 3.8%. Slingshot, Knife, Zippooil e Nailpolish apresentam as melhorias mais notáveis, com 9.1%, 5.6%, 5.1% e 5.1%, respectivamente. Nosso método melhora o mAP em 3.8% em comparação com a linha de base. Embora a melhoria teórica de 3.9 por cento não seja alcançada, 3.8 por cento pode ser considerado uma melhoria razoavelmente boa.

Na comparação entre o Baseline e o Baseline com Poisson, notamos que a acurácia melhorou para todas as categorias que tiveram aumento na contagem de amostras, exceto para Bombinhas. Conforme ilustrado na Figura 11, o volume de Bombinhas é maior que o de outras categorias, o que pode estar relacionado à sua diminuição na precisão. Para as categorias Faca, Isqueiro e Pressão, onde a contagem de amostras permaneceu inalterada, seu desempenho também apresentou melhora. A maior precisão para estas categorias pode ser atribuída ao seu amplo número de amostras, e a maior precisão em outras categorias provavelmente reduz o risco de classificação incorreta pelo modelo.

FIG. 11  Histograma de distribuição da escala para cada categoria. Nas subparcelas, o eixo horizontal representa a área de pixels dos itens proibidos, enquanto o eixo vertical representa a frequência. Os cabeçalhos “max”, “min” e “mean” indicam respectivamente os valores máximo, mínimo e médio das áreas de pixels de itens proibidos dentro de cada categoria. Observe as escalas dos eixos horizontal e vertical em cada subparcela.

Na comparação entre Linha de Base e Linha de Base com Re-BiFPN, referenciando a Tabela 3 e a Figura 11, notamos melhorias na precisão para diversas categorias, incluindo Faca, Isqueiro, Zippooil, Pressão, Estilingue, Esmalte e Powerbank. No entanto, não foi observada melhoria na precisão para as outras três categorias: Algemas, Bombinhas e Tesouras. Com base nos insights fornecidos pela Figura 6 (a) e Figura 11, a diminuição na precisão de Algemas e Fogos de artifício pode ser atribuída às suas contagens limitadas de amostras e a uma ampla gama de escalas. A eficácia do método Re-BiFPN pode ser prejudicada por este fator, dada a necessidade de um volume significativo de dados para aprender adequadamente uma variedade de recursos multiescala. A diminuição na precisão da Tesoura pode ser devida a oclusões complexas entre a Tesoura e o fundo e aos detalhes de textura sobrepostos, conforme ilustrado na Fig. 1 (a) para a Tesoura.

Comparação do efeito de detecção: A Figura 12 mostra o efeito de detecção do nosso método e da linha de base.

FIG. 12  Comparação do efeito de detecção entre nosso método e a linha de base. A primeira linha mostra as imagens de entrada. Para maior clareza, destacamos artificialmente os itens proibidos em vermelho na imagem de entrada. A segunda linha mostra o efeito de detecção da linha de base. A terceira linha mostra o efeito de detecção do nosso método.

Na imagem, quanto mais próxima a caixa amarela estiver do item proibido, melhor será o algoritmo na localização do item proibido. Sob a condição de que os rótulos estejam corretos, as pontuações dos rótulos estão positivamente correlacionadas com a capacidade de classificação do algoritmo. Combinando a Tabela 3 e a Figura 12, podemos descobrir que a linha de base (o Cascade R-CNN original) perdeu detecções para as categorias Faca, Isqueiro, Zippooil, Esmalte e Powerbank e, no entanto, nosso método pode detectar todos esses itens proibidos perdidos. Além disso, mesmo para as categorias de fogos de artifício, algemas, pressão e tesouras que podem ser detectadas pela linha de base, os efeitos de localização e classificação do nosso método são melhores que os da linha de base.

4.4 Experimentos de comparação entre nosso método e outros métodos convencionais

Nos experimentos comparativos, comparamos métodos SOTA (estado da arte) de vários domínios. O trabalho de Miao [9] representa o método SOTA no campo das técnicas de separação de primeiro plano e fundo. Da mesma forma, o método proposto em [34] é considerado o método SOTA entre as abordagens de estágio único, enquanto o método de Wang [8] é reconhecido como o método SOTA entre as abordagens de dois estágios. A técnica de Zhang et al. [18] demonstrou desempenho notável em tarefas de detecção de itens proibidos. Além disso, o método introduzido por Mery [7] é um representante proeminente no domínio dos métodos baseados em aprendizado de máquina. Esses benchmarks nos permitem realizar análises comparativas abrangentes para mostrar a eficácia do nosso método proposto.

Comparação da precisão da detecção: Como pode ser visto na Tabela 4, a precisão de detecção do nosso método é respectivamente 12.5%, 7.4%, 4.9%, 4.7% e 4.5% superior à dos cinco grupos de controle. Dentre os cinco métodos de comparação, a precisão do algoritmo proposto por Mery et al. [7] baseado em aprendizado de máquina é de apenas 73.1%. Em contraste, a precisão de detecção do nosso método neste artigo chega a 85.6%.

tabela 4  Comparações do AP e do mAP com outros métodos convencionais.

Comparação do efeito de detecção: A Figura 13 mostra o efeito de detecção do nosso método e outros algoritmos de comparação.

FIG. 13  Comparação do efeito de detecção entre nosso método e outros algoritmos convencionais. A imagem de entrada é mostrada na primeira linha da Fig. 12. Da primeira à quinta linhas representam o efeito de detecção dos cinco grupos de controle na Tabela 4. A última linha mostra o efeito de detecção do nosso método.

Conforme mostrado na Figura 13, o método proposto por Mery et al. [7] mostra uma detecção gravemente errada para o Lighter. Além disso, Algemas, Esmalte, Tesoura e Estilingue perderam a detecção. Embora Pressão e Fogos de Artifício possam ser classificados corretamente, suas caixas de previsão não circundam completamente os itens proibidos. O método proposto por Zhang et al. [18] também tem algumas detecções erradas e perdidas para isqueiros, algemas, pressão e fogos de artifício. O método proposto por Wang et al. [8] tem boa detecção para Isqueiro e Tesoura. Mas Algemas e Pressão têm alguma detecção errada. Facas e fogos de artifício precisam ser localizados com precisão. O método proposto por Wang et al. [34] é um algoritmo representativo de detecção de alvo de um estágio. No entanto, Faca, Isqueiro e Pressão detectaram alguns que precisam ser corrigidos. O método proposto por Miao et al. [9] tem melhor precisão de classificação para Isqueiro, Tesoura, Pressão, Zippooil e Estilingue. Porém, pode-se perceber pela figura que as caixas de previsão de Isqueiro, Pressão e Zippooil não localizam com precisão a localização dos itens proibidos.

A última linha mostra o efeito de detecção do nosso método. Ele funciona melhor com isqueiros, algemas e tesouras, que são mais propensos a detecção errada e perdida. Além disso, nosso método é mais preciso na localização de Pressão, Fogos de Artifício, Zippooil e Pressão. Em resumo, pode-se observar na Tabela 4 e na Figura 13 que nosso método possui melhor precisão de localização e maior precisão de classificação neste trabalho.

5. Conclusões

Neste artigo, discutimos três desafios enfrentados na detecção de itens proibidos em imagens de inspeção de segurança por raios X: (a) a distribuição desequilibrada de categorias, (b) diversidade de escalas de itens proibidos e (c) sobreposição entre itens.

Para (a), propusemos aproveitar o algoritmo de mistura de Poisson com a abordagem do operador Canny edge para aumentar a diversidade e complexidade das amostras. Para (b), propusemos o método de fusão de recursos Re-BiFPN, que consiste em um módulo CA-ASPP e uma conexão recursiva. O módulo CA-ASPP extrai as informações de localização dos mapas de características multiescala. A conexão recursiva alimenta os mapas de recursos multiescala processados ​​pelo módulo CA-ASPP para a camada backbone de baixo para cima. Para (c), uma função de perda Rep-CIoU é projetada para resolver o problema de sobreposição em imagens de raios-X.

Nos experimentos de ablação, nossa combinação de Poisson proposta combinada com o método do operador de borda Canny, o método de fusão de recursos Re-BiFPN e a função de perda Rep-CIoU melhoraram 1.5, 1.6 e 0.8 por cento, respectivamente. Experimentos de comparação mostram que nosso método pode identificar com sucesso dez tipos de itens proibidos, como faca, tesoura, etc., e alcançou 83.4% de mAP, o que é superior à linha de base (o Cascade R-CNN original) e outros métodos convencionais.

Em nosso trabalho futuro, aumentaremos ainda mais os tipos de itens proibidos, adicionando amostras de treinamento para atender às necessidades de diferentes cenários alfandegários, como aeroportos, serviços de entrega e metrôs. Além disso, investigaremos mais a fundo e estabeleceremos uma referência consistente e objetiva para avaliar a inspeção visual humana. Eventualmente iremos desenvolver um sistema de assistência à verificação de segurança e implantar o modelo no sistema para auxiliar a equipe de segurança. Esse sistema de assistência à verificação de segurança pode efetivamente reduzir o custo da mão de obra e melhorar a qualidade dos serviços de inspeção de segurança.

Agradecimentos

Gostaríamos de agradecer à iFLYTEK CO.LTD por nos fornecer as imagens de inspeção de segurança por raios X. Este trabalho foi parcialmente apoiado por JST SPRING, Grant Number JPMJSP2111.

Referências

[1] F. Thorsten, S. Uwe, and R. Stefan, “Object detection in multi-view X-ray images,” Joint DAGM (German Association for Pattern Recognition) and OAGM Symposium, 2012.
CrossRef

[2] D. Mery, E. Svec, and M. Arias, “Object recognition in baggage inspection using adaptive sparse representations of X-ray images,” Image and Video Technology, pp.709-720, 2015.
CrossRef

[3] J. Ding, S. Chen, and G. Lu, “X-ray security inspection method using active vision based on Q-learning algorithm,” Journal of Computer Applications, vol.38, no.12, pp.3414-3418, 2018.
CrossRef

[4] D. Mery, E. Svec, M. Arias, V. Riffo, J.M. Saavedra, and S. Banerjee, “Modern computer vision techniques for X-ray testing in baggage inspection,” IEEE Trans. Syst. Man Cybern., Syst., vol.47, no.4, pp.682-692, 2016.
CrossRef

[5] Y. Wei, R. Tao, Z. Wu, Y. Ma, L. Zhang, and X. Liu, “Occluded prohibited item detection: An X-ray security inspection benchmark and de-occlusion attention module,” Proc. 28th ACM International Conference on Multimedia, pp.138-146, 2020.
CrossRef

[6] M. Baştan, “Multi-view object detection in dual-energy X-ray images,” Machine Vision and Applications, vol.26, pp.1045-1060, 2015.
CrossRef

[7] D. Mery, G. Mondragon, V. Riffo, and I. Zuccar, “Detection of regular objects in baggage using multiple X-ray views,” Insight-Non-Destructive Testing and Condition Monitoring, vol.55, no.1, pp.16-20, 2013.
CrossRef

[8] B. Wang, L. Zhang, L. Wen, X. Liu, and Y. Wu, “Towards real-world prohibited item detection: A large-scale X-ray benchmark,” Proc. IEEE/CVF International Conference on Computer Vision, 2021.
CrossRef

[9] C. Miao, L. Xie, F. Wan, C. Su, H. Liu, J. Jiao, and Q. Ye, “SIXray: A large-scale security inspection X-ray benchmark for prohibited item discovery in overlapping images,” Proc. IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019.
CrossRef

[10] Z. Cai and N. Vasconcelos, “Cascade R-CNN: Delving into high quality object detection,” Proc. IEEE Conference on Computer Vision and Pattern Recognition, 2018.
CrossRef

[11] T. Lin, P. Dollar, R. Girshick, K. He, B. Hariharan, and S. Belongie, “Feature pyramid networks for object detection,” Proc. IEEE Conference on Computer Vision and Pattern Recognition, 2017.
CrossRef

[12] F. Shao, J. Liu, P. Wu, Z. Yang, and Z. Wu, “Exploiting foreground and background separation for prohibited item detection in overlapping X-Ray images,” Pattern Recognition, vol.122, 108261, 2022.
CrossRef

[13] Y. Wei, R. Tao, Z. Wu, Y. Ma, L. Zhang, and X. Liu, “Occluded prohibited items detection: An X-ray security inspection benchmark and De-occlusion attention module,” Proc. 28th ACM International Conference on Multimedia, pp.138-146, 2020.
CrossRef

[14] T. Hassan, H. Khan, and S. Akcay, “Deep CMST framework for the autonomous recognition of heavily occluded and cluttered baggage items from multivendor security radiographs,” arXiv preprint arXiv:1912.04251, 2019.
CrossRef

[15] S. Akcay, M.E. Kundegorski, M. Devereux, and T.P. Breckon, “Transfer learning using convolutional neural networks for object classification within X-ray baggage security imagery,” 2016 IEEE International Conference on Image Processing (ICIP), 2016.
CrossRef

[16] M. Roomi and M. Rajashankarii, “Detection of concealed weapons in X-ray images using fuzzy K-NN,” International Journal of Computer Science, vol.2, no.2, pp.187-196, 2012.
CrossRef

[17] S. Akcay, M. Kundegorski, C. Willcocks, and T. Breckon, “Using deep convolutional neural network architectures for object classification and detection within X-ray baggage security imagery,” IEEE Trans. Inf. Forensics Security, vol.13, no.9, pp.2203-2215, 2018.
CrossRef

[18] Y. Zhang, Z. Su, H. Zhang, and J. Yang, “Multi-scale prohibited item detection in X-ray security image,” Journal of Signal Processing, vol.36, no.7, pp.1096-1106, 2020.
CrossRef

[19] S. Liu, L. Qi, H. Qin, J. Shi, and J. Jia, “Path aggregation network for instance segmentation,” Proc. IEEE Conference on Computer Vision and Pattern Recognition, 2018.
CrossRef

[20] M. Tan, R. Pang, and Q. Le, “EfficientDet: Scalable and efficient object detection,” Proc. IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020.
CrossRef

[21] Q. Hou, D. Zhou, and J. Feng, “Coordinate attention for efficient mobile network design,” Proc. IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021.
CrossRef

[22] K. Chen, Z. Zhu, X. Deng, C. Ma, and H. Wang, “Deep learning for multi-scale object detection: A survey,” Journal of Software, vol.32, no.4, pp.1201-1227, 2021.
CrossRef

[23] X. Wang, S. Zhang, Z. Yu, L. Feng, and W. Zhang, “Scale-equalizing pyramid convolution for object detection,” Proc. IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020.
CrossRef

[24] K. Min, H. Lee, and S. Lee, “Attentional feature pyramid network for small object detection,” Neural Networks, vol.155, pp.439-450, 2022.
CrossRef

[25] R. Girshick, J. Donahue, T. Darrell, and J. Malik, “Rich feature hierarchies for accurate object detection and semantic segmentation,” Proc. IEEE Conference on Computer Vision and Pattern Recognition, 2014.
CrossRef

[26] J. Yu, Y. Jiang, Z. Wang, Z. Cao, and T. Huang, “UnitBox: An advanced object detection network,” Proc. 24th ACM International Conference on Multimedia, pp.516-520, 2016.
CrossRef

[27] X. Wang, T. Xiao, Y. Jiang, S. Shao, J. Sun, and C. Shen, “Repulsion loss: Detecting pedestrians in a crowd,” Proc. IEEE Conference on Computer Vision and Pattern Recognition, 2018.
CrossRef

[28] H. Rezatofighi, N. Tsoi, J. Gwak, A. Sadeghian, I. Reid, and S. Savarese, “Generalized intersection over union: A metric and a loss for bounding box regression,” Proc. IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019.
CrossRef

[29] Z. Zheng, P. Wang, W. Liu, J. Li, R. Ye, and D. Ren, “Distance-IoU loss: Faster and better learning for bounding box regression,” Proc. AAAI Conference on Artificial Intelligence, vol.34, no.7, pp.12993-13000, 2020.
CrossRef

[30] Z. Zheng, P. Wang, D. Ren, W. Liu, R. Ye, Q. Hu, and W. Zuo, “Enhancing geometric factors in model learning and inference for object detection and instance segmentation,” arXiv preprint arXiv:2005.03572, 2020.
CrossRef

[31] S. Xie, R. Girshick, P. Dollar, Z. Tu, and K. He, “Aggregated residual transformations for deep neural networks,” Proc. IEEE Conference on Computer Vision and Pattern Recognition, 2017.
CrossRef

[32] P. Pérez, M. Gangnet, and A. Blake, “Poisson image editing,” ACM SIGGRAPH 2003 Papers, pp.313-318, 2003.
CrossRef

[33] F. Chollet, “Xception: Deep learning with depthwise separable convolutions,” Proc. IEEE Conference on Computer Vision and Pattern Recognition, 2017.
CrossRef

[34] Z. Wang, H. Zhang, Z. Lin, X. Tan, and B. Zhou, “Prohibited items detection in baggage security based on improved YOLOv5,” 2022 IEEE 2nd International Conference on Software Engineering and Artificial Intelligence (SEAI), 2022.
CrossRef

autores

Qingqi ZHANG
  Yamaguchi University

was born in 1996. He received the B.E. from Heilongjiang University, China, in 2019 and the M.E. from Zhejiang Sci-Tech University, China, in 2022. He is currently a Ph.D. candidate in the Graduate School of East Asian Studies, Yamaguchi University, Japan. His main research interests include computer vision and pattern recognition.

Xiaoan BAO
  Zhejiang Sci-Tech University

received the B.S. from Zhejiang University (China) in 1998, and M.S. from China West Normal University in 2004. He was an Associate Professor at Zhejiang Sci-Tech University, China, from 2007 to 2012. Since November 2012, he has been a Professor at Zhejiang Sci-Tech University, China. His main research interests include software engineering and computer vision, and pattern recognition.

Ren WU
  Shunan University

received B.E. and M.E. from Hiroshima University, Japan, in 1988 and 1990, respectively, and Ph.D. from Yamaguchi University, Japan, in 2013. She was with Fujitsu Ten Ltd., West Japan Information Systems Co., Ltd. and Yamaguchi Junior College from 1991 to March 2024. Since April 2024, she has been an Associate Professor at Shunan University, Japan. Her research interest includes information processing systems, linguistic information processing and system modeling. She is a member of the Institute of Electronics, Information and Communication Engineers (IEICE) and the Institute of Information Processing Society of Japan (IPSJ).

Mitsuru NAKATA
  Yamaguchi University

received B.E., M.E. and Ph.D. from Fukui University, Japan, in 1992, 1994 and 1998, respectively. He was a Lecturer from 1998 to 2004 and an Associate Professor from 2004 to 2014 both at Yamaguchi University, Japan. Since October 2014, he has been a Professor at Yamaguchi University. His research interest includes database system, text processing and program net theory and information education. He is a member of the Institute of Electronics, Information and Communication Engineers (IEICE), the Institute of Information Processing Society of Japan (IPSJ) and the Institute of Electrical and Electronics Engineers (IEEE).

Qi-Wei GE
  Yamaguchi University

received B.E. from Fudan University, China, in 1983, M.E. and Ph.D. from Hiroshima University, Japan, in 1987 and 1991, respectively. He was with Fujitsu Ten Limited from 1991 to 1993. He was an Associate Professor at Yamaguchi University, Japan, from 1993 to 2004. Since April 2004, he has been a Professor at Yamaguchi University, Japan. He is currently a Trustee at Yamaguchi University, Japan. His research interest includes Petri nets, program net theory and combinatorics. He is a member of the Institute of Electronics, Information and Communication Engineers (IEICE), the Institute of Information Processing Society of Japan (IPSJ) and the Institute of Electrical and Electronics Engineers (IEEE).

Palavra-chave