Yingying LU Cheng LU Yuan ZONG Feng ZHOU Chuangao TANG
Jialong LI Takuto YAMAUCHI Takanori HIRANO Jinyu CAI Kenji TEI
Wei LEI Yue ZHANG Hanfeng XIE Zebin CHEN Zengping CHEN Weixing LI
David CLARINO Naoya ASADA Atsushi MATSUO Shigeru YAMASHITA
Takashi YOKOTA Kanemitsu OOTSU
Xiaokang Jin Benben Huang Hao Sheng Yao Wu
Tomoki MIYAMOTO
Ken WATANABE Katsuhide FUJITA
Masashi UNOKI Kai LI Anuwat CHAIWONGYEN Quoc-Huy NGUYEN Khalid ZAMAN
Takaharu TSUBOYAMA Ryota TAKAHASHI Motoi IWATA Koichi KISE
Chi ZHANG Li TAO Toshihiko YAMASAKI
Ann Jelyn TIEMPO Yong-Jin JEONG
Haruhisa KATO Yoshitaka KIDANI Kei KAWAMURA
Jiakun LI Jiajian LI Yanjun SHI Hui LIAN Haifan WU
Gyuyeong KIM
Hyun KWON Jun LEE
Fan LI Enze YANG Chao LI Shuoyan LIU Haodong WANG
Guangjin Ouyang Yong Guo Yu Lu Fang He
Yuyao LIU Qingyong LI Shi BAO Wen WANG
Cong PANG Ye NI Jia Ming CHENG Lin ZHOU Li ZHAO
Nikolay FEDOROV Yuta YAMASAKI Masateru TSUNODA Akito MONDEN Amjed TAHIR Kwabena Ebo BENNIN Koji TODA Keitaro NAKASAI
Yukasa MURAKAMI Yuta YAMASAKI Masateru TSUNODA Akito MONDEN Amjed TAHIR Kwabena Ebo BENNIN Koji TODA Keitaro NAKASAI
Kazuya KAKIZAKI Kazuto FUKUCHI Jun SAKUMA
Yitong WANG Htoo Htoo Sandi KYAW Kunihiro FUJIYOSHI Keiichi KANEKO
Waqas NAWAZ Muhammad UZAIR Kifayat ULLAH KHAN Iram FATIMA
Haeyoung Lee
Ji XI Pengxu JIANG Yue XIE Wei JIANG Hao DING
Weiwei JING Zhonghua LI
Sena LEE Chaeyoung KIM Hoorin PARK
Akira ITO Yoshiaki TAKAHASHI
Rindo NAKANISHI Yoshiaki TAKATA Hiroyuki SEKI
Chuzo IWAMOTO Ryo TAKAISHI
Chih-Ping Wang Duen-Ren Liu
Yuya TAKADA Rikuto MOCHIDA Miya NAKAJIMA Syun-suke KADOYA Daisuke SANO Tsuyoshi KATO
Yi Huo Yun Ge
Rikuto MOCHIDA Miya NAKAJIMA Haruki ONO Takahiro ANDO Tsuyoshi KATO
Koichi FUJII Tomomi MATSUI
Yaotong SONG Zhipeng LIU Zhiming ZHANG Jun TANG Zhenyu LEI Shangce GAO
Souhei TAKAGI Takuya KOJIMA Hideharu AMANO Morihiro KUGA Masahiro IIDA
Jun ZHOU Masaaki KONDO
Tetsuya MANABE Wataru UNUMA
Kazuyuki AMANO
Takumi SHIOTA Tonan KAMATA Ryuhei UEHARA
Hitoshi MURAKAMI Yutaro YAMAGUCHI
Jingjing Liu Chuanyang Liu Yiquan Wu Zuo Sun
Zhenglong YANG Weihao DENG Guozhong WANG Tao FAN Yixi LUO
Yoshiaki TAKATA Akira ONISHI Ryoma SENDA Hiroyuki SEKI
Dinesh DAULTANI Masayuki TANAKA Masatoshi OKUTOMI Kazuki ENDO
Kento KIMURA Tomohiro HARAMIISHI Kazuyuki AMANO Shin-ichi NAKANO
Ryotaro MITSUBOSHI Kohei HATANO Eiji TAKIMOTO
Genta INOUE Daiki OKONOGI Satoru JIMBO Thiem Van CHU Masato MOTOMURA Kazushi KAWAMURA
Hikaru USAMI Yusuke KAMEDA
Yinan YANG
Takumi INABA Takatsugu ONO Koji INOUE Satoshi KAWAKAMI
Fengshan ZHAO Qin LIU Takeshi IKENAGA
Naohito MATSUMOTO Kazuhiro KURITA Masashi KIYOMI
Tomohiro KOBAYASHI Tomomi MATSUI
Shin-ichi NAKANO
Ming PAN
Este artigo se concentra em melhorar a estrutura da rede de segmentação de imagens de ramificação bilateral BiSeNet v2, aprimorando sua capacidade de aprendizado para detalhes espaciais e precisão geral de segmentação de imagem. Uma rede modificada chamada “BiconvNet” é proposta. Primeiramente, para extrair detalhes espaciais rasos de forma mais eficaz, um módulo de convolução de faixa concatenada paralela e dilatada (PCSD) é proposto e usado para extrair características locais e características contextuais circundantes na ramificação de detalhes. Continuando, a ramificação semântica é reconstruída usando a capacidade leve de convolução separável em profundidade e alto desempenho do ConvNet, a fim de permitir um aprendizado mais eficiente de características semânticas avançadas profundas. Finalmente, o ajuste fino é realizado na camada de agregação de orientação bilateral do BiSeNet v2, permitindo melhor fusão dos mapas de características produzidos pela ramificação de detalhes e ramificação semântica. A parte experimental discute a contribuição da convolução de faixa e diferentes tamanhos de convolução vazia para a precisão da segmentação de imagem e os compara com convoluções comuns, como convolução Conv2d, convolução CG e convolução CCA. O experimento prova que o módulo de convolução PCSD proposto neste artigo tem a maior precisão de segmentação em todas as categorias do conjunto de dados Cityscapes em comparação com convoluções comuns. O BiConvNet obteve uma melhoria de precisão de 9.39% sobre a rede BiSeNet v2, com apenas um ligeiro aumento de 1.18 M nos parâmetros do modelo. Uma precisão de mIoU de 68.75% foi obtida no conjunto de validação. Além disso, por meio de experimentos comparativos com algoritmos de segmentação de imagens de direção autônoma comumente usados nos últimos anos, o BiConvNet demonstra fortes vantagens competitivas na precisão de segmentação nos conjuntos de dados Cityscapes e BDD100K.
Yuan LI Tingting HU Ryuji FUCHIKAMI Takeshi IKENAGA
Os sistemas de visão de 1 milissegundo (1 ms) estão ganhando cada vez mais atenção em diversos campos, como automação de fábrica e robótica, pois o atraso ultrabaixo garante respostas perfeitas e oportunas. A segmentação de superpixels é um pré-processamento essencial para reduzir o número de primitivas de imagem para processamento subsequente. Recentemente, tem havido uma ênfase crescente em alavancar algoritmos baseados em redes profundas para buscar desempenho superior e melhor integração em outras tarefas de redes profundas. A Superpixel Sampling Network (SSN) emprega uma rede profunda para geração de recursos e emprega SLIC diferenciável para geração de superpixels. A SSN atinge alto desempenho com um pequeno número de parâmetros. No entanto, a implementação de SSN em FPGAs para atraso ultrabaixo enfrenta desafios devido à agregação de resultados intermediários da camada final. Para abordar essa limitação, este artigo propõe uma estrutura agregada para pipeline para implementação de FPGA. A camada final é decomposta em camadas finais individuais para cada resultado intermediário. Esse ajuste arquitetônico elimina a necessidade de memória para armazenar resultados intermediários. Ao mesmo tempo, a estrutura proposta aproveita camadas decompostas para facilitar uma estrutura em pipeline com entrada de streaming de pixel para atingir latência ultrabaixa. Para cooperar com a estrutura em pipeline, é proposta uma arquitetura de memória particionada em camadas. Cada camada final tem memória dedicada para armazenar informações do centro de superpixel, permitindo que os valores sejam lidos e calculados da memória sem conflitos. Os resultados do cálculo de cada camada final são acumulados, e o resultado de cada pixel é obtido conforme o fluxo atinge a última camada. Os resultados da avaliação demonstram que a recuperação de limite e o erro de subsegmentação permanecem comparáveis ao SSN, com uma melhoria média de consistência de rótulo de 0.035 sobre o SSN. De uma perspectiva de desempenho de hardware, o sistema proposto processa imagens de 1000 FPS com um atraso de 0.947 ms/quadro.
Modern memory devices such as DRAM are prone to errors that occur because of unintended bit flips during their operation. Since memory errors severely impact in-memory key-value stores (KVSes), software mechanisms for hardening them against memory errors are being explored. However, it is hard to efficiently test the memory error handling code due to its characteristics: the code is event-driven, the handlers depend on the memory object, and in-memory KVSes manage various objects in huge memory space. This paper presents MemFI that supports runtime tests for the memory error handlers of in-memory KVSes. Our approach performs the software fault injection of memory errors at the memory object level to trigger the target handler while smoothly carrying out tests on the same running state. To show the effectiveness of MemFI, we integrate error handling mechanisms into a real-world in-memory KVS, memcached 1.6.9 and Redis 6.2.7, and check their behavior using the MemFI prototypes. The results show that the MemFI-based runtime test allows us to check the behavior of the error handling mechanisms. We also show its efficiency by comparing it to other fault injection approaches based on a trial model.
A fusão de imagens multifocais envolve a combinação de imagens parcialmente focadas da mesma cena para criar uma imagem totalmente focada. Visando os problemas dos algoritmos de fusão de imagens multifocais existentes, de que a imagem de referência é difícil de obter e a rede neural convolucional foca muito na região local, um algoritmo de fusão que combina codificação de características locais e globais é proposto. Inicialmente, criamos duas tarefas de reconstrução de imagem autossupervisionadas e treinamos uma rede codificadora-decodificadora por meio de aprendizado multitarefa. Posteriormente, dentro do codificador, mesclamos o módulo de conexão densa com o módulo PS-ViT, permitindo que a rede utilize informações locais e globais durante a extração de características. Finalmente, para aumentar a eficiência geral do modelo, funções de perda distintas são aplicadas a cada tarefa. Para preservar as características mais robustas das imagens originais, a frequência espacial é empregada durante o estágio de fusão para obter o mapa de características da imagem fundida. Os resultados experimentais demonstram que, em comparação com outros doze algoritmos proeminentes, nosso método exibe bom desempenho de fusão na avaliação objetiva. Dez das doze métricas de avaliação selecionadas mostram uma melhoria de mais de 0.28%. Além disso, apresenta efeitos visuais superiores subjetivamente.
Nan WU Xiaocong LAI Mei CHEN Ying PAN
Com o desenvolvimento da Web Semântica, um número crescente de pesquisadores está utilizando a tecnologia de ontologia para construir ontologias de domínio. Como não há um padrão de construção unificado, ocorre heterogeneidade de ontologia. O método de correspondência de ontologia pode fundir ontologias heterogêneas, o que realiza a interoperabilidade entre conhecimento e associados a informações semânticas mais relevantes. No caso de diferenças entre ontologias, como reduzir a correspondência falsa e a correspondência malsucedida é um problema crítico a ser resolvido. Além disso, à medida que o número de ontologias aumenta, o relacionamento semântico entre ontologias se torna cada vez mais complexo. No entanto, os métodos atuais que apenas encontram a similaridade de nomes entre conceitos não são mais suficientes. Consequentemente, este artigo propõe um método de correspondência de ontologia baseado em associação semântica. Pares de correspondência precisos são descobertos pelo conhecimento semântico existente e, em seguida, as associações semânticas potenciais entre conceitos são mineradas de acordo com as características da estrutura contextual. O método de correspondência pode realizar melhor o trabalho de correspondência com base em conhecimento confiável. Além disso, este artigo apresenta um método de reparo de lógica probabilística, que pode detectar e reparar o conflito de resultados de correspondência, para aumentar a disponibilidade e a confiabilidade dos resultados de correspondência. Os resultados experimentais mostram que o método proposto melhora efetivamente a qualidade da correspondência entre ontologias e economiza tempo no reparo de pares de correspondência incorretos. Além disso, comparado com os sistemas de correspondência de ontologias existentes, o método proposto tem melhor estabilidade.
Keitaro NAKASAI Shin KOMEDA Masateru TSUNODA Masayuki KASHIMA
Para medir automaticamente a carga de trabalho mental dos desenvolvedores, estudos existentes usaram medidas biométricas, como ondas cerebrais e frequência cardíaca. No entanto, os desenvolvedores geralmente precisam equipar certos dispositivos ao medi-los e, portanto, podem ser sobrecarregados fisicamente. Neste estudo, avaliamos a viabilidade de medidas biométricas sem contato com base na temperatura da pele nasal (NST). No experimento, as medidas biométricas propostas foram mais precisas do que as medidas não biométricas.
White-box cryptographic implementations often use masking and shuffling as countermeasures against key extraction attacks. To counter these defenses, higher-order Differential Computation Analysis (HO-DCA) and its variants have been developed. These methods aim to breach these countermeasures without needing reverse engineering. However, these non-invasive attacks are expensive and can be thwarted by updating the masking and shuffling techniques. This paper introduces a simple binary injection attack, aptly named clear & return, designed to bypass advanced masking and shuffling defenses employed in white-box cryptography. The attack involves injecting a small amount of assembly code, which effectively disables run-time random sources. This loss of randomness exposes the unprotected lookup value within white-box implementations, making them vulnerable to simple statistical analysis. In experiments targeting open-source white-box cryptographic implementations, the attack strategy of hijacking entries in the Global Offset Table (GOT) or function calls shows effectiveness in circumventing run-time countermeasures.
Nat PAVASANT Takashi MORITA Masayuki NUMAO Ken-ichi FUKUI
Propusemos um procedimento para pré-processar dados usados em uma modelagem vetorial autorregressiva (VAR) de um processo de ponto temporal usando estimativa de densidade de kernel. A modelagem vetorial autorregressiva de dados de processo de ponto, por exemplo, está sendo usada para inferência de causalidade. O modelo VAR discretiza a linha do tempo em pequenas janelas e cria uma série temporal pela presença de eventos em cada janela e, em seguida, modela a presença de um evento no próximo passo de tempo por seu histórico. O problema é que obter um histórico mais longo com alta resolução temporal exigia um grande número de janelas e, portanto, parâmetros do modelo. Propusemos o procedimento de estimativa de densidade local, que, em vez de usar a presença binária como entrada para o modelo, realizou a estimativa de densidade de kernel do histórico de eventos e discretizou a estimativa a ser usada como entrada. Isso nos permitiu reduzir o número de parâmetros do modelo, especialmente em dados esparsos. Nosso experimento em um processo de Poisson esparso mostrou que esse procedimento aumenta muito o desempenho da previsão do modelo.
Takahito YOSHIDA Takaharu YAGUCHI Takashi MATSUBARA
Simular sistemas físicos com precisão é essencial em vários campos. Nos últimos anos, o aprendizado profundo tem sido usado para construir automaticamente modelos de tais sistemas aprendendo com dados. Um desses métodos é a equação diferencial ordinária neural (EDO neural), que trata a saída de uma rede neural como a derivada temporal dos estados do sistema. No entanto, embora este e outros métodos relacionados tenham se mostrado promissores, suas estratégias de treinamento ainda requerem mais desenvolvimento. Inspirados por técnicas de análise de erros em análise numérica ao substituir erros numéricos por erros de modelagem, propomos a estratégia de análise de erros para abordar esse problema. Portanto, nossa estratégia pode capturar erros de longo prazo e, assim, melhorar a precisão das previsões de longo prazo.
Congcong FANG Yun JIN Guanlin CHEN Yunfan ZHANG Shidang LI Yong MA Yue XIE
Atualmente, um número crescente de tarefas no reconhecimento de emoções na fala depende da análise de características de fala e texto. No entanto, ainda há uma escassez de pesquisas explorando o potencial de alavancar grandes modelos de linguagem como o GPT-3 para aprimorar o reconhecimento de emoções. Nesta investigação, aproveitamos o poder do modelo GPT-3 para extrair informações semânticas de textos transcritos, gerando características modais de texto com uma dimensionalidade de 1536. Posteriormente, realizamos a fusão de características, combinando as características de texto de 1536 dimensões com características acústicas de 1188 dimensões para produzir resultados abrangentes de reconhecimento multimodal. Nossas descobertas revelam que o método proposto atinge uma precisão ponderada de 79.62% nas quatro categorias de emoções no IEMOCAP, ressaltando o aumento considerável na precisão do reconhecimento de emoções facilitado pela integração de grandes modelos de linguagem.
Shuoyan LIU Chao LI Yuxin LIU Yanqiu WANG
Escadas rolantes são um recurso indispensável em locais públicos. Embora possam fornecer conveniência às pessoas, acidentes anormais podem levar a consequências sérias. Yolo é uma função que detecta comportamento humano em tempo real. No entanto, o modelo exibe baixa precisão e uma alta taxa de erro para alvos pequenos. Para esse fim, este artigo propõe o modelo Small Target High Performance YOLO (SH-YOLO) para detectar comportamento anormal em escadas rolantes. O modelo SH-YOLO primeiro aprimora a rede de backbone por meio de mecanismos de atenção. Posteriormente, uma pequena camada de detecção de alvo é incorporada para aprimorar a detecção de pontos-chave para objetos pequenos. Finalmente, o conv e o SPPF são substituídos por um Region Dynamic Perception Depth Separable Conv (DR-DP-Conv) e Atrous Spatial Pyramid Pooling (ASPP), respectivamente. Os resultados experimentais demonstram que o modelo proposto é capaz de detectar anomalias com precisão e robustez na cena de escadas rolantes do mundo real.
Lihan TONG Weijia LI Qingxia YANG Liyuan CHEN Peng CHEN
Apresentamos o Ksformer, que utiliza o Multi-scale Key-select Routing Attention (MKRA) para seleção inteligente de áreas-chave por meio de janelas multicanal e multiescala com um operador top-k e o Lightweight Frequency Processing Module (LFPM) para aprimorar recursos de alta frequência, superando outros métodos de desfocagem em testes.