A funcionalidade de pesquisa está em construção.
A funcionalidade de pesquisa está em construção.

IEICE TRANSACTIONS on Information

  • Impact Factor

    0.59

  • Eigenfactor

    0.002

  • article influence

    0.1

  • Cite Score

    1.4

Publicação antecipada (publicado online imediatamente após a aceitação)

Volume E107-D No.11  (Publication Date:2024/11/01)

    Seção regular
  • BiConvNet: Integrando detalhes espaciais e recursos semânticos profundos em uma rede de segmentação de imagens de ramificação bilateral Abra o Access

    Zhigang WU  Yaohui ZHU  

     
    PAPER-Fundamentals of Information Systems

      Publicado:
    2024/07/16
      Páginas):
    1385-1395

    Este artigo se concentra em melhorar a estrutura da rede de segmentação de imagens de ramificação bilateral BiSeNet v2, aprimorando sua capacidade de aprendizado para detalhes espaciais e precisão geral de segmentação de imagem. Uma rede modificada chamada “BiconvNet” é proposta. Primeiramente, para extrair detalhes espaciais rasos de forma mais eficaz, um módulo de convolução de faixa concatenada paralela e dilatada (PCSD) é proposto e usado para extrair características locais e características contextuais circundantes na ramificação de detalhes. Continuando, a ramificação semântica é reconstruída usando a capacidade leve de convolução separável em profundidade e alto desempenho do ConvNet, a fim de permitir um aprendizado mais eficiente de características semânticas avançadas profundas. Finalmente, o ajuste fino é realizado na camada de agregação de orientação bilateral do BiSeNet v2, permitindo melhor fusão dos mapas de características produzidos pela ramificação de detalhes e ramificação semântica. A parte experimental discute a contribuição da convolução de faixa e diferentes tamanhos de convolução vazia para a precisão da segmentação de imagem e os compara com convoluções comuns, como convolução Conv2d, convolução CG e convolução CCA. O experimento prova que o módulo de convolução PCSD proposto neste artigo tem a maior precisão de segmentação em todas as categorias do conjunto de dados Cityscapes em comparação com convoluções comuns. O BiConvNet obteve uma melhoria de precisão de 9.39% sobre a rede BiSeNet v2, com apenas um ligeiro aumento de 1.18 M nos parâmetros do modelo. Uma precisão de mIoU de 68.75% foi obtida no conjunto de validação. Além disso, por meio de experimentos comparativos com algoritmos de segmentação de imagens de direção autônoma comumente usados ​​nos últimos anos, o BiConvNet demonstra fortes vantagens competitivas na precisão de segmentação nos conjuntos de dados Cityscapes e BDD100K.

  • Agregado a SSN de streaming baseado em estrutura de pipeline para sistema de segmentação de superpixel de 1 ms em automação de fábrica Abra o Access

    Yuan LI  Tingting HU  Ryuji FUCHIKAMI  Takeshi IKENAGA  

     
    PAPER-Computer System

      Publicado:
    2024/07/23
      Páginas):
    1396-1407

    Os sistemas de visão de 1 milissegundo (1 ms) estão ganhando cada vez mais atenção em diversos campos, como automação de fábrica e robótica, pois o atraso ultrabaixo garante respostas perfeitas e oportunas. A segmentação de superpixels é um pré-processamento essencial para reduzir o número de primitivas de imagem para processamento subsequente. Recentemente, tem havido uma ênfase crescente em alavancar algoritmos baseados em redes profundas para buscar desempenho superior e melhor integração em outras tarefas de redes profundas. A Superpixel Sampling Network (SSN) emprega uma rede profunda para geração de recursos e emprega SLIC diferenciável para geração de superpixels. A SSN atinge alto desempenho com um pequeno número de parâmetros. No entanto, a implementação de SSN em FPGAs para atraso ultrabaixo enfrenta desafios devido à agregação de resultados intermediários da camada final. Para abordar essa limitação, este artigo propõe uma estrutura agregada para pipeline para implementação de FPGA. A camada final é decomposta em camadas finais individuais para cada resultado intermediário. Esse ajuste arquitetônico elimina a necessidade de memória para armazenar resultados intermediários. Ao mesmo tempo, a estrutura proposta aproveita camadas decompostas para facilitar uma estrutura em pipeline com entrada de streaming de pixel para atingir latência ultrabaixa. Para cooperar com a estrutura em pipeline, é proposta uma arquitetura de memória particionada em camadas. Cada camada final tem memória dedicada para armazenar informações do centro de superpixel, permitindo que os valores sejam lidos e calculados da memória sem conflitos. Os resultados do cálculo de cada camada final são acumulados, e o resultado de cada pixel é obtido conforme o fluxo atinge a última camada. Os resultados da avaliação demonstram que a recuperação de limite e o erro de subsegmentação permanecem comparáveis ​​ao SSN, com uma melhoria média de consistência de rótulo de 0.035 sobre o SSN. De uma perspectiva de desempenho de hardware, o sistema proposto processa imagens de 1000 FPS com um atraso de 0.947 ms/quadro.

  • Testes de tempo de execução para manipuladores de erros de memória de armazenamentos de valores-chave na memória usando MemFI Abra o Access

    Naoya NEZU  Hiroshi YAMADA  

     
    PAPER-Software System

      Publicado:
    2024/07/11
      Páginas):
    1408-1421

    Modern memory devices such as DRAM are prone to errors that occur because of unintended bit flips during their operation. Since memory errors severely impact in-memory key-value stores (KVSes), software mechanisms for hardening them against memory errors are being explored. However, it is hard to efficiently test the memory error handling code due to its characteristics: the code is event-driven, the handlers depend on the memory object, and in-memory KVSes manage various objects in huge memory space. This paper presents MemFI that supports runtime tests for the memory error handlers of in-memory KVSes. Our approach performs the software fault injection of memory errors at the memory object level to trigger the target handler while smoothly carrying out tests on the same running state. To show the effectiveness of MemFI, we integrate error handling mechanisms into a real-world in-memory KVS, memcached 1.6.9 and Redis 6.2.7, and check their behavior using the MemFI prototypes. The results show that the MemFI-based runtime test allows us to check the behavior of the error handling mechanisms. We also show its efficiency by comparing it to other fault injection approaches based on a trial model.

  • Algoritmo de fusão de imagens multifocais baseado em aprendizagem multitarefa e PS-ViT Abra o Access

    Qinghua WU  Weitong LI  

     
    PAPER-Image Recognition, Computer Vision

      Publicado:
    2024/07/11
      Páginas):
    1422-1432

    A fusão de imagens multifocais envolve a combinação de imagens parcialmente focadas da mesma cena para criar uma imagem totalmente focada. Visando os problemas dos algoritmos de fusão de imagens multifocais existentes, de que a imagem de referência é difícil de obter e a rede neural convolucional foca muito na região local, um algoritmo de fusão que combina codificação de características locais e globais é proposto. Inicialmente, criamos duas tarefas de reconstrução de imagem autossupervisionadas e treinamos uma rede codificadora-decodificadora por meio de aprendizado multitarefa. Posteriormente, dentro do codificador, mesclamos o módulo de conexão densa com o módulo PS-ViT, permitindo que a rede utilize informações locais e globais durante a extração de características. Finalmente, para aumentar a eficiência geral do modelo, funções de perda distintas são aplicadas a cada tarefa. Para preservar as características mais robustas das imagens originais, a frequência espacial é empregada durante o estágio de fusão para obter o mapa de características da imagem fundida. Os resultados experimentais demonstram que, em comparação com outros doze algoritmos proeminentes, nosso método exibe bom desempenho de fusão na avaliação objetiva. Dez das doze métricas de avaliação selecionadas mostram uma melhoria de mais de 0.28%. Além disso, apresenta efeitos visuais superiores subjetivamente.

  • Correspondência e reparo de ontologias com base em associação semântica e lógica probabilística Abra o Access

    Nan WU  Xiaocong LAI  Mei CHEN  Ying PAN  

     
    PAPER-Natural Language Processing

      Publicado:
    2024/07/11
      Páginas):
    1433-1443

    Com o desenvolvimento da Web Semântica, um número crescente de pesquisadores está utilizando a tecnologia de ontologia para construir ontologias de domínio. Como não há um padrão de construção unificado, ocorre heterogeneidade de ontologia. O método de correspondência de ontologia pode fundir ontologias heterogêneas, o que realiza a interoperabilidade entre conhecimento e associados a informações semânticas mais relevantes. No caso de diferenças entre ontologias, como reduzir a correspondência falsa e a correspondência malsucedida é um problema crítico a ser resolvido. Além disso, à medida que o número de ontologias aumenta, o relacionamento semântico entre ontologias se torna cada vez mais complexo. No entanto, os métodos atuais que apenas encontram a similaridade de nomes entre conceitos não são mais suficientes. Consequentemente, este artigo propõe um método de correspondência de ontologia baseado em associação semântica. Pares de correspondência precisos são descobertos pelo conhecimento semântico existente e, em seguida, as associações semânticas potenciais entre conceitos são mineradas de acordo com as características da estrutura contextual. O método de correspondência pode realizar melhor o trabalho de correspondência com base em conhecimento confiável. Além disso, este artigo apresenta um método de reparo de lógica probabilística, que pode detectar e reparar o conflito de resultados de correspondência, para aumentar a disponibilidade e a confiabilidade dos resultados de correspondência. Os resultados experimentais mostram que o método proposto melhora efetivamente a qualidade da correspondência entre ontologias e economiza tempo no reparo de pares de correspondência incorretos. Além disso, comparado com os sistemas de correspondência de ontologias existentes, o método proposto tem melhor estabilidade.

  • Medindo a carga de trabalho mental de desenvolvedores de software com base na temperatura da pele nasal Abra o Access

    Keitaro NAKASAI  Shin KOMEDA  Masateru TSUNODA  Masayuki KASHIMA  

     
    LETTER-Software Engineering

      Publicado:
    2024/07/11
      Páginas):
    1444-1448

    Para medir automaticamente a carga de trabalho mental dos desenvolvedores, estudos existentes usaram medidas biométricas, como ondas cerebrais e frequência cardíaca. No entanto, os desenvolvedores geralmente precisam equipar certos dispositivos ao medi-los e, portanto, podem ser sobrecarregados fisicamente. Neste estudo, avaliamos a viabilidade de medidas biométricas sem contato com base na temperatura da pele nasal (NST). No experimento, as medidas biométricas propostas foram mais precisas do que as medidas não biométricas.

  • LIMPAR E RETORNAR: Parando contramedidas de tempo de execução em primitivas criptográficas Abra o Access

    Myung-Hyun KIM  Seungkwang LEE  

     
    LETTER-Information Network

      Publicado:
    2024/06/26
      Páginas):
    1449-1452

    White-box cryptographic implementations often use masking and shuffling as countermeasures against key extraction attacks. To counter these defenses, higher-order Differential Computation Analysis (HO-DCA) and its variants have been developed. These methods aim to breach these countermeasures without needing reverse engineering. However, these non-invasive attacks are expensive and can be thwarted by updating the masking and shuffling techniques. This paper introduces a simple binary injection attack, aptly named clear & return, designed to bypass advanced masking and shuffling defenses employed in white-box cryptography. The attack involves injecting a small amount of assembly code, which effectively disables run-time random sources. This loss of randomness exposes the unprotected lookup value within white-box implementations, making them vulnerable to simple statistical analysis. In experiments targeting open-source white-box cryptographic implementations, the attack strategy of hijacking entries in the Global Offset Table (GOT) or function calls shows effectiveness in circumventing run-time countermeasures.

  • Procedimento de estimativa de densidade local para modelagem autorregressiva de dados de processo pontual Abra o Access

    Nat PAVASANT  Takashi MORITA  Masayuki NUMAO  Ken-ichi FUKUI  

     
    LETTER-Artificial Intelligence, Data Mining

      Publicado:
    2024/07/11
      Páginas):
    1453-1457

    Propusemos um procedimento para pré-processar dados usados ​​em uma modelagem vetorial autorregressiva (VAR) de um processo de ponto temporal usando estimativa de densidade de kernel. A modelagem vetorial autorregressiva de dados de processo de ponto, por exemplo, está sendo usada para inferência de causalidade. O modelo VAR discretiza a linha do tempo em pequenas janelas e cria uma série temporal pela presença de eventos em cada janela e, em seguida, modela a presença de um evento no próximo passo de tempo por seu histórico. O problema é que obter um histórico mais longo com alta resolução temporal exigia um grande número de janelas e, portanto, parâmetros do modelo. Propusemos o procedimento de estimativa de densidade local, que, em vez de usar a presença binária como entrada para o modelo, realizou a estimativa de densidade de kernel do histórico de eventos e discretizou a estimativa a ser usada como entrada. Isso nos permitiu reduzir o número de parâmetros do modelo, especialmente em dados esparsos. Nosso experimento em um processo de Poisson esparso mostrou que esse procedimento aumenta muito o desempenho da previsão do modelo.

  • Função de perda para aprendizado profundo para modelar sistemas dinâmicos Abra o Access

    Takahito YOSHIDA  Takaharu YAGUCHI  Takashi MATSUBARA  

     
    LETTER-Artificial Intelligence, Data Mining

      Publicado:
    2024/07/22
      Páginas):
    1458-1462

    Simular sistemas físicos com precisão é essencial em vários campos. Nos últimos anos, o aprendizado profundo tem sido usado para construir automaticamente modelos de tais sistemas aprendendo com dados. Um desses métodos é a equação diferencial ordinária neural (EDO neural), que trata a saída de uma rede neural como a derivada temporal dos estados do sistema. No entanto, embora este e outros métodos relacionados tenham se mostrado promissores, suas estratégias de treinamento ainda requerem mais desenvolvimento. Inspirados por técnicas de análise de erros em análise numérica ao substituir erros numéricos por erros de modelagem, propomos a estratégia de análise de erros para abordar esse problema. Portanto, nossa estratégia pode capturar erros de longo prazo e, assim, melhorar a precisão das previsões de longo prazo.

  • Reconhecimento de emoção de fala multimodal baseado em modelo de linguagem grande Abra o Access

    Congcong FANG  Yun JIN  Guanlin CHEN  Yunfan ZHANG  Shidang LI  Yong MA  Yue XIE  

     
    LETTER-Speech and Hearing

      Publicado:
    2024/07/22
      Páginas):
    1463-1467

    Atualmente, um número crescente de tarefas no reconhecimento de emoções na fala depende da análise de características de fala e texto. No entanto, ainda há uma escassez de pesquisas explorando o potencial de alavancar grandes modelos de linguagem como o GPT-3 para aprimorar o reconhecimento de emoções. Nesta investigação, aproveitamos o poder do modelo GPT-3 para extrair informações semânticas de textos transcritos, gerando características modais de texto com uma dimensionalidade de 1536. Posteriormente, realizamos a fusão de características, combinando as características de texto de 1536 dimensões com características acústicas de 1188 dimensões para produzir resultados abrangentes de reconhecimento multimodal. Nossas descobertas revelam que o método proposto atinge uma precisão ponderada de 79.62% nas quatro categorias de emoções no IEMOCAP, ressaltando o aumento considerável na precisão do reconhecimento de emoções facilitado pela integração de grandes modelos de linguagem.

  • SH-YOLO: YOLO de alto desempenho e alvo pequeno para detecção de comportamento anormal em cena de escada rolante Abra o Access

    Shuoyan LIU  Chao LI  Yuxin LIU  Yanqiu WANG  

     
    LETTER-Image Recognition, Computer Vision

      Publicado:
    2024/06/26
      Páginas):
    1468-1471

    Escadas rolantes são um recurso indispensável em locais públicos. Embora possam fornecer conveniência às pessoas, acidentes anormais podem levar a consequências sérias. Yolo é uma função que detecta comportamento humano em tempo real. No entanto, o modelo exibe baixa precisão e uma alta taxa de erro para alvos pequenos. Para esse fim, este artigo propõe o modelo Small Target High Performance YOLO (SH-YOLO) para detectar comportamento anormal em escadas rolantes. O modelo SH-YOLO primeiro aprimora a rede de backbone por meio de mecanismos de atenção. Posteriormente, uma pequena camada de detecção de alvo é incorporada para aprimorar a detecção de pontos-chave para objetos pequenos. Finalmente, o conv e o SPPF são substituídos por um Region Dynamic Perception Depth Separable Conv (DR-DP-Conv) e Atrous Spatial Pyramid Pooling (ASPP), respectivamente. Os resultados experimentais demonstram que o modelo proposto é capaz de detectar anomalias com precisão e robustez na cena de escadas rolantes do mundo real.

  • Transformador de visão com roteamento de seleção de chave para desfoque de imagem única Abra o Access

    Lihan TONG  Weijia LI  Qingxia YANG  Liyuan CHEN  Peng CHEN  

     
    LETTER-Image Recognition, Computer Vision

      Publicado:
    2024/07/01
      Páginas):
    1472-1475

    Apresentamos o Ksformer, que utiliza o Multi-scale Key-select Routing Attention (MKRA) para seleção inteligente de áreas-chave por meio de janelas multicanal e multiescala com um operador top-k e o Lightweight Frequency Processing Module (LFPM) para aprimorar recursos de alta frequência, superando outros métodos de desfocagem em testes.