1. Introdução
A detecção de texto em vídeo visa localizar e rastrear instâncias de texto em vídeos. Como a maioria dos vídeos contém texto, a detecção de texto é um estágio significativo em muitas aplicações, como recuperação de vídeo [1], [3] e direção autônoma [4].
Os métodos existentes de detecção de texto de vídeo (VTD) podem ser divididos em duas categorias. Uma linha de trabalhos formula o problema VTD como um problema especial de detecção de objetos. Muitos desses métodos são baseados em uma estratégia bottom-up, que modifica uma estrutura de detecção de objetos ou segmentação de instâncias para localizar componentes de instâncias de texto e então agregar esses componentes para obter resultados finais [5]. Outras linhas de trabalho utilizam sequências de pontos de curvas fechadas ou caixas delimitadoras com recurso de aparência e geometria para modelar o limite de instâncias de texto e formulam o problema VTD com base em uma estratégia top-down. Esses métodos utilizam uma estrutura de rastreamento [6]-[8] com fusão de recursos [9], [10] para lidar com as variações de desfoque de movimento ou mudanças de iluminação.
Pode-se descobrir que a maioria dos métodos VTD anteriores concentram-se apenas em melhorar a precisão da detecção, mas poucos deles consideram a questão da velocidade. Como o VTD em tempo real é significativo para muitas aplicações, este artigo tem como objetivo explorar o desafiador problema da detecção de texto em tempo real em vídeo HD, cuja velocidade de detecção é superior a 30fps (quadros por segundo) em vídeos comuns.
De acordo com nossas análises e experimentos preliminares, a modificação direta de métodos VTD anteriores para realizar tarefas VTD em tempo real pode não funcionar bem. Os desafios são duplos. Em primeiro lugar, a maioria dos métodos anteriores são treinados em dados de vídeo com resolução reduzida, cujo desempenho pode ser difícil de manter em vídeo HD. Em segundo lugar, os métodos baseados na estrutura de segmentação de objetos ou na estrutura de rastreamento podem exigir uma arquitetura de rede deliberadamente projetada ou componentes de fusão de recursos, o que pode causar complexidade computacional intrinsecamente alta e não conseguir atingir uma velocidade de 30fps em tempo real, conforme mostrado na Tabela 1. .
Neste artigo, propomos um método de detecção de texto de vídeo HD em tempo real, considerando tanto as questões de precisão quanto de velocidade. Com base em nossos trabalhos preliminares para detecção de texto em imagens [2], usamos as assinaturas Fourier Contour Embedding (FCE) para representar contornos de texto de formato arbitrário no domínio de Fourier. Em seguida, propomos o método VTD-FCE com reconhecimento de escala, que seleciona adaptativamente a escala da rede backbone de recursos do FCE que corresponde principalmente à escala das instâncias de texto de vídeo no estágio de treinamento.
Equipado com o método VTD-FCE, construímos o VTD-FCENet para detecção de texto de vídeo em tempo real, que possui uma arquitetura adaptativa leve de ponta a ponta para alcançar um bom equilíbrio entre precisão e velocidade de detecção. O VTD-FCENet consiste em uma rede ResNet50, uma rede em pirâmide de recursos, três cabeçotes de previsão com reconhecimento de escala e um módulo de pós-processamento acelerado por GPU. Cada cabeça de predição contém três ramificações: uma ramificação de classificação, uma ramificação de regressão e uma ramificação de adaptação de ponto de modelagem. O mecanismo de fusão entre quadros é introduzido para obter correlação temporal entre os quadros anteriores e seguintes. A primeira ramificação prevê as possíveis regiões de texto e regiões centrais do texto, a segunda ramificação prevê os vetores de Fourier contendo informações de contorno do texto e a terceira ramificação prevê o número do ponto de modelagem usado para pós-processamento. Finalmente, o módulo de pós-processamento reconstrói e agrega os vetores de Fourier previstos e remove redundâncias por meio de supressão não máxima (NMS). O VTD-FCENet pode ser acelerado de forma eficiente via GPU, mas vale a pena notar que mesmo sem aceleração de GPU, nosso VTD-FCENet pode alcançar detecção em tempo real com boa precisão.
Os resultados experimentais verificaram a eficácia e o desempenho em tempo real do nosso VTD-FCENet na detecção de vídeo texto. Nosso método alcançou desempenho de última geração nos conjuntos de dados ICDAR 2013 Video [11] e Minetto [12], e desempenho competitivo no conjunto de dados YVT [13]. Enquanto isso, nossa velocidade de inferência é muito mais rápida que os métodos anteriores e podemos obter detecção em tempo real em vídeos de entrada HD.
As principais contribuições são resumidas da seguinte forma:
- É proposto o método VTD-FCE, que modela contornos de texto de formato arbitrário como assinaturas compactas no domínio de Fourier. Ele seleciona adaptativamente a escala de recursos correspondente às instâncias do texto de treinamento e obtém correlações temporais entre quadros adjacentes por meio do mecanismo de fusão em nível de quadro.
- Baseado no VTD-FCE, o VTD-FCENet foi construído para obter detecção de texto de vídeo em tempo real com uma arquitetura leve de ponta a ponta. O VTD-FCENet pode melhorar muito sua velocidade de inferência por meio da aceleração da GPU e otimização da rede, ao mesmo tempo que obtém boa precisão de detecção.
- Resultados experimentais e comparações com métodos relacionados nos conjuntos de dados de benchmark ICDAR 2013 Video, Minetto e YVT mostram que nosso VTD-FCENet não apenas obtém o que há de mais moderno ou competitivo em precisão de detecção, mas também obtém a mais alta velocidade de inferência e atinge resultados reais. detecção de texto em tempo real em vídeos HD.
2. Método proposto
2.1 Método VTD-FCE com reconhecimento de escala
Com base em trabalhos preliminares para detecção de texto em imagens [2], que representam contornos de texto de formato arbitrário usando assinaturas Fourier Contour Embedding (FCE) no domínio de Fourier, propomos o método VTD-FCE com reconhecimento de escala e mecanismos de fusão entre quadros para alcançar real Detecção de texto de vídeo HD em tempo real.
No VTD-FCE, o fluxo de vídeo de entrada com \(s\) quadros podem ser representados como \(\mathbf{V_{s}}=[{F}_{1},\ldots,{F}_{s}]\). Cada quadro \(F\) no fluxo contém contornos correspondentes \(\mathbf{C}\), que pode ser representado no seguinte formato:
\[\begin{equation*} \mathbf{C} = \mathbf{X} + i\mathbf{Y} \tag{1} \end{equation*}\] |
\(\mathbf{C} = [{C}_{1},\ldots,{C}_{m}]\) denota \(m\) contornos neste quadro. \(\mathbf{X}=[{x}_{1}(t),\ldots,{x}_{m}(t)]\) e \(\mathbf{Y}=[{y}_{1}(t),\ldots,{y}_{m}(t)]\) denotam coordenadas espaciais em contornos. Observe esse contorno \(C(t)=C(t+1)\), \(t\in[0,1]\). Adotamos a Transformação Inversa de Fourier (IFT) para formular \(\mathbf{C}\)
\[\begin{equation*} \mathbf{C} = \sum_{k=-\infty}^{+\infty} \hat{\mathbf{a}_{k}} e^{2\pi ik} \tag{2} \end{equation*}\] |
\(k \in Z\) denota frequência, \(\hat{\mathbf{a}_{k}}=[{a}_{k_1},\ldots,{a}_{k_m}]\) denota todos os vetores de incorporação de contorno de Fourier neste quadro, em que cada elemento \(\hat{\mathbf{a}_{k}}\) pode ser obtido pela Transformada de Fourier após discretizar o contorno contínuo \(C(t)\) em sequência de N pontos \(C(\frac{n}{N})\).
\[\begin{equation*} {a}_{k} = \frac{1}{N} \sum_{n=1}^{N} C(\frac{n}{N}) e^{-2\pi ik\frac{n}{N}} \tag{3} \end{equation*}\] |
Cada combinação de \({a}_{k}\) e \(e^{2\pi ik}\) representa um movimento circular com vetor inicial \({a}_{k}\) e frequência \(k\). Consequentemente, como mostrado na Figura 1, podemos considerar o contorno do texto como uma integração de movimentos circulares com diferentes frequências (círculos rosa na figura). Cada pixel no contorno do texto contém o vetor VTD-FCE [\(u_{-k}, v_{-k} \ldots u_{k}, v_{k}, a\)], Onde \(u\) e \(v\) representam a parte real e a parte da imagem do vetor Fourier Contour Embedding \({a}_{k}\), \(a\) doa balanças para serem ativadas. Em nosso método, definimos \(k=5\).
Nosso método VTD-FCE primeiro faz uma nova amostragem do contorno entre os pontos de verdade em um número fixo \(N\) para obter sequência de pontos densos. Então a Transformação de Fourier é adotada para obter a assinatura de Fourier \({a}_{k}\) com pontos de contorno reamostrados. Finalmente, integrando movimentos circulares como mostrado na Fig. 1, podemos reconstruir o contorno do texto.
Observe que restrições no ponto de partida, direção de amostragem e velocidade de movimento são utilizadas para fazer a assinatura de Fourier \({a}_{k}\) exclusivo. Definimos nosso ponto de partida como o ponto de intersecção mais à direita entre a linha horizontal que passa pelo ponto central e o contorno do texto. A direção de amostragem é definida no sentido horário e a velocidade de movimento é uniforme.
Um mecanismo com reconhecimento de escala é projetado para selecionar de forma adaptativa a escala da saída do recurso correspondente à rede backbone no estágio de treinamento com base no tamanho dos dados. Durante o treinamento, este módulo calcula automaticamente a distribuição do tamanho dos textos no conjunto de dados e os divide em três categorias com base no tamanho do texto. Utilizamos diferentes escalas de saída de recursos e diferentes cabeças de previsão para cada uma das três categorias na rede e selecionamos adaptativamente a escala com base na distribuição das proporções de tamanho. Quando a proporção de distribuição da categoria é inferior a um limite \(\theta\), congelamos e removemos a cabeça da balança correspondente para aumentar a eficiência e reduzir o impacto de outras escalas. Para as demais escalas, a escala com maior proporção de distribuição é supervisionada com as amostras de entrada de todos os tamanhos, enquanto as demais escalas são supervisionadas apenas com os tamanhos correspondentes.
2.2 VTD-FCENet para detecção de texto de vídeo em tempo real
Arquiteturas de Rede. Equipado com VTD-FCE, propomos o VTD-FCENet para obter detecção de texto de vídeo em tempo real. Diferente do FCENet [2], que usa apenas o mesmo cabeçote para saídas em várias escalas, definimos cabeçotes de previsão com reconhecimento de escala separados para cada camada individual de saída de recursos para supervisionar melhor as mudanças de escala. Nosso VTD-FCENet consiste em ResNet [14] como backbone, FPN [15] como pescoço e três cabeçotes de predição separados. A saída de recursos de escala diferente do FPN será alimentada em diferentes cabeçotes de previsão para prever regiões de texto, regiões centrais de texto, vetores de Fourier e número de pontos de modelagem. Os resultados finais da detecção seriam obtidos por meio de pós-processamento.
A cabeça de predição consiste em três ramos, onde o ramo de classificação prevê a máscara da região de texto (TR) no nível do pixel; o ramo de regressão prevê os vetores de Fourier do contorno das instâncias do texto; e o ramo de adaptação do ponto de modelagem prevê o número do ponto de modelagem usado para pós-processamento com base na complexidade do quadro. Cada ramo contém três \(3\times 3\) camadas convolucionais e uma \(1\times 1\) camada convolucional, e cada uma delas é seguida por uma camada ReLU.
Além disso, o módulo de fusão entre quadros foi projetado para explorar a correlação entre quadros adjacentes em um fluxo de vídeo. Coletamos a máscara de saída prevista \(M_{t-1}\) e \(M_{t}\) de quadros adjacentes com limites \(\beta_1\) e \(\beta_2\). Primeiramente, filtramos a máscara prevista do quadro anterior \(M_{t-1}\) by \(\beta_1\) obter \(M_{t-1}'\). Em seguida, o filtro \(M_{t-1}'\) e máscara prevista do quadro atual \(M_{t}\) são combinados e filtrados por \(\beta_2\) para obter a previsão aprimorada \(E_{t}\) no quadro atual.
Geração da verdade fundamental. No ramo de classificação, usamos o método [2] para obter a região central do texto (TCR) da máscara para reduzir o texto por um fator de 0.3. No ramo de regressão, os vetores de Fourier serão regredidos em cada pixel do contorno do texto. Na tarefa de pontos de amostra adaptativos, determinamos o número de pontos de amostra com base no número de instâncias de texto presentes no quadro. Adotamos um número menor de pontos de amostra quando há mais instâncias de texto no quadro para manter a velocidade estável sob diferentes condições.
Função de perda. A função de perda do VTD-FCENet é \(\mathcal{L} = \mathcal{L}_{cls} + \mathcal{L}_{reg} + \mathcal{L}_{sam}\), Onde \(\mathcal{L}_{cls}\), \(\mathcal{L}_{reg}\) e \(\mathcal{L}_{sam}\) são as perdas do ramo de classificação, regressão e pontos amostrais adaptativos, respectivamente.
Para \(\mathcal{L}_{cls}\), consiste em dois componentes, ou seja \(\mathcal{L}_{cls}=\mathcal{L}_{tr}+\mathcal{L}_{tcr}\), Onde \(\mathcal{L}_{tr}\) e \(\mathcal{L}_{tcr}\) são as perdas de entropia cruzada da região do texto (TR) e da região central do texto (TCR), respectivamente. Para resolver o problema de desequilíbrio amostral, o método OHEM é usado com a proporção de 3:1 de amostras negativas para amostras positivas. Para \(\mathcal{L}_{reg}\), minimizamos os contornos do texto reconstruído no domínio do espaço da imagem em vez dos vetores de Fourier previstos. Para \(\mathcal{L}_{sam}\), adotamos as perdas de entropia cruzada do número de pontos de amostra previstos na região do texto para calcular.
Pós-processamento. A confiança do contorno do texto previsto \(C\) é obtido através da soma ponderada da confiança da região do texto \(C_{tr}\) e confiança na região central do texto \(C_{tcr}\), Isto é, \(C=\alpha C_{tr}+(1-\alpha)C_{tcr}\). O valor típico de \(\alpha\) foi definido como 0.1 em nossos experimentos. Então, a saída prevista com alta confiança seria utilizada para reconstruir os contornos do texto por meio da transformada inversa de Fourier (IFT) e supressão não máxima (NMS).
3. Experimente
Avaliação experimental da precisão da detecção (medida pela precisão \(P\), lembrar \(R\)e medida f \(F\)) e velocidade de inferência (medida em quadros por segundo \(fps\)) foram realizados em três conjuntos de dados de referência para tarefas de VTD, incluindo ICDAR 2013 Video, Minetto e YVT.
Vídeo ICDAR 2013 [11] (o tamanho do quadro varia de \(720\times 480\) para \(1280 \times 960\)) contém 13 vídeos de treinamento e 15 vídeos de teste, capturados por 4 câmeras em cenas internas e externas. Minetto (tamanho do quadro \(640 \times 480\)) [12] contém 5 vídeos de cenas externas. YVT [13] contém vídeos (tamanho do quadro \(1280\times 720\)) coletado do youtube, onde metade é para treinamento e a outra para teste.
3.1 Detalhes de Implementação
A espinha dorsal do modelo foi inicializada com o modelo pré-treinado no ImageNet. O otimizador usa descida gradiente estocástica com impulso de 0.9. A taxa de aprendizagem inicializada é 0.001, que é reduzida em 0.8\(\times\) a cada 100 épocas. Antes do treino, identificamos e removemos tais quadros previamente para evitar impactos negativos. Na fase de treinamento, os modelos para ICDAR 2013 e YVT são primeiro pré-treinados no ICDAR 2015 e depois ajustados em seu próprio conjunto de dados. Como o conjunto de dados Minetto possui apenas um conjunto de testes, usamos os modelos treinados no ICDAR 2013 para testes. Na fase de testes, os limites da região de texto foram definidos em 0.95 para ICDAR2013 e Minetto, 0.9 em YVT. O limite de NMS no pós-processamento foi definido como 0.05.
3.2 Avaliação Básica
Ambas as avaliações de precisão e velocidade de detecção foram conduzidas para VTD-FCENet nos conjuntos de dados ICDAR 2013 Video, Minetto e YVT, e os resultados indicam a eficácia do VTD-FCE e VTD-FCENet para a tarefa VTD em tempo real.
Avaliação do VTD-FCE. O método VTD-FCE é avaliado através da comparação de um detector baseado em CNN sem VTD-FCE e um detector com VTD-FCE, conforme mostrado na Fig. 3. Pode-se observar que o limite detectado produzido por VTD-FCE se ajusta a instâncias de texto de perto. Vale ressaltar que uma vantagem importante do nosso método VTD-FCE é a capacidade de modelar texto irregular. No entanto, existem poucos textos irregulares nos conjuntos de dados de textos de vídeo públicos existentes, o que não pode demonstrar a nossa capacidade neste sentido.
Nosso método ainda apresenta limitações como a falta de capacidade de resolver a diferença de domínio nas amostras. Conforme mostrado na Tabela 1, o desempenho do YVT não é superior aos outros dois conjuntos de dados. Isso porque o YVT consiste em desenhos animados, álbuns que incluem muito texto sintético e wordart, enquanto o ICDAR 2013 Video e o Minetto são coletados de cenas naturais. Nosso modelo não alcançou capacidade de generalização adequada para resolver o problema de mudança de domínio. Além disso, não tivemos um bom desempenho em alguns textos finos e pequenos. Conforme mostrado na Figura 4, nosso método não consegue detectar texto corretamente, e até mesmo não consegue detectar nada em algumas situações. Pelas limitações e fraquezas do nosso método, iremos desenvolvê-los ainda mais na versão futura.
FIG. 4 Limitação no VTD-FCE. O VTD-FCE não teve um bom desempenho em amostras que incluem texto sintético, wordart e alguns textos delgados e pequenos. |
Estudo de Ablação do VTD-FCENet. Conduzimos estudos de ablação do VTD-FCENet proposto, mostrado na Tabela 2. Testamos o desempenho entre a rede com reconhecimento de escala, soma ponderada da região de texto, módulo de fusão entre quadros e aceleração de inferência de GPU, respectivamente. Os resultados indicam a eficácia dos componentes do VTD-FCENet para melhorar a precisão e velocidade da tarefa VTD.
Avaliação de velocidade em vídeos HD. Também avaliamos a velocidade do nosso método em vídeos com diversas resoluções. Conforme mostrado na Tabela 3, nosso modelo pode realizar detecção em tempo real em vídeos com resolução Full HD (1080p) e taxas de quadros ainda mais altas, de até 60fps em vídeos com resolução HD (720p).
3.3 Comparação com Métodos Relacionados
Fizemos extensas comparações com muitos métodos relacionados nos conjuntos de dados ICDAR2013 Video, YVT e Minetto, conforme mostrado na Tabela 1. Para precisão de detecção, os resultados ilustram que nosso VTD-FCENet obtém o melhor desempenho de medida F nos conjuntos de dados ICDAR2013 e Minetto, e obter desempenho competitivo no conjunto de dados YVT. Para velocidade de inferência, nosso método VTD-FCENet não apenas obtém a velocidade mais alta, mas também é o único método que atinge VTD em tempo real em diferentes conjuntos de dados, mesmo para vídeos HD.
Também fizemos uma comparação com o VTD-FCENet e nosso FCENet preliminar [2], que foi originalmente projetado para detecção de texto em imagens. O resultado mostra que o uso direto do método FCENet para tarefas VTD é subótimo para precisão de detecção devido à falta de informações entre quadros. Mas podemos ver que, beneficiando-se da assinatura FCE no domínio de Fourier, até mesmo o FCENet original obtém a maior velocidade de inferência (acima de 30fps no YVT) entre os métodos anteriores, o que mostra o potencial do FCE para VTD. Portanto, com base no FCE, projetamos o VTD-FCE com reconhecimento de escala e construímos o VTD-FCENet com uma arquitetura mais leve para obter melhor precisão e velocidade de detecção, e os resultados verificam a eficácia do nosso método.
4. Conclusão
Este artigo propõe um método VTD-FCE, que seleciona adaptativamente a escala das instâncias de texto. Baseado no VTD-FCE, o VTD-FCENet é construído com fusão entre quadros. Resultados experimentais em conjuntos de dados de benchmark mostram que nosso VTD-FCENet não apenas obtém SOTA ou precisão de detecção competitiva, mas também obtém velocidade de inferência em tempo real simultaneamente.
Agradecimentos
Lingyu Liang foi apoiado pelos Fundos de Pesquisa Fundamental para as Universidades Centrais, pelo Fundo Aberto do Laboratório Chave Provincial de Processamento de Informação e Controle Inteligente de Fujian (Universidade de Minjiang) (MJUKF-IPIC202102) e pelo Programa de Ciência e Tecnologia do Laboratório Pazhou. Tao Wang foi apoiado pelo Projeto Geral da Fundação Provincial de Ciências Naturais de Fujian (2022J011112), Projeto de Pesquisa da Fundação Fashu (MFK23001), O Programa Aberto do Laboratório Chave de Computação Cognitiva e Processamento Inteligente de Informações de Instituições Educacionais de Fujian, Universidade Wuyi (KLCCIIP2020202).
Referências
[1] W. Shao, R. Kawakami, and T. Naemura, “Anomaly detection using spatio-temporal context learned by video clip sorting,” IEICE Tran. Inf. & Syst., vol.105, no.5, pp.1094-1102, 2022.
CrossRef
[2] Y. Zhu, J. Chen, L. Liang, Z. Kuang, L. Jin, and W. Zhang, “Fourier contour embedding for arbitrary-shaped text detection,” Proc. CVPR, pp.3123-3131, 2021.
[3] Y. Ge, Y. Ge, X. Liu, D. Li, Y. Shan, X. Qie, and P. Luo, “Bridging video-text retrieval with multiple choice questions,” Proc. CVPR, pp.16167-16176, 2022.
[4] S. Reddy, M. Mathew, L. Gomez, M. Rusinol, D. Karatzas, and C. Jawahar, “Roadtext-1k: Text detection & recognition dataset for driving videos,” Proc. ICRA, pp.11074-11080, 2020.
[5] P. Shivakumara, L. Wu, T. Lu, C.L. Tan, M. Blumenstein, and B.S. Anami, “Fractals based multi-oriented text detection system for recognition in mobile video images,” Pattern Recognition, vol.68, pp.158-174, 2017.
CrossRef
[6] Y. Gao, X. Li, J. Zhang, Y. Zhou, D. Jin, J. Wang, S. Zhu, and X. Bai, “Video text tracking with a spatio-temporal complementary model,” IEEE Trans. on Image Processing, vol.30, pp.9321-9331, 2021.
CrossRef
[7] H. Yu, Y. Huang, L. Pi, C. Zhang, X. Li, and L. Wang, “End-to-end video text detection with online tracking,” Pattern Recognition, vol.113, 107791, 2021.
CrossRef
[8] W. Feng, F. Yin, X.-Y. Zhang, and C.-L. Liu, “Semantic-aware video text detection,” Proc. CVPR, pp.1695-1705, 2021.
[9] L. Chen, J. Shi, and F. Su, “Robust video text detection through parametric shape regression, propagation and fusion,” Proc. ICME, pp.1-6, 2021.
[10] L. Wang, J. Shi, Y. Wang, and F. Su, “Video text detection by attentive spatiotemporal fusion of deep convolutional features,” Proc. ACM MM, pp.66-74, 2019.
CrossRef
[11] D. Karatzas, F. Shafait, S. Uchida, M. Iwamura, L.G. Bigorda, S.R. Mestre, J. Mas, D.F. Mota, J.A. Almazàn, and L.P. De Las Heras, “ICDAR 2013 robust reading competition,” Proc. ICDAR, pp.1484-1493, IEEE, 2013.
[12] R. Minetto, N. Thome, M. Cord, N.J. Leite, and J. Stolfi, “Snoopertrack: Text detection and tracking for outdoor videos,” Proc. ICIP, pp.505-508, 2011.
[13] P.X. Nguyen, K. Wang, and S. Belongie, “Video text detection and recognition: Dataset and benchmark,” Proc. WACV, pp.776-783, 2014.
[14] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” Proc. CVPR, 2016.
[15] T.-Y. Lin, P. Dollár, R. Girshick, K. He, B. Hariharan, and S. Belongie, “Feature pyramid networks for object detection,” Proc. CVPR, 2017.
[16] L. Wang, Y. Wang, S. Shan, and F. Su, “Scene text detection and tracking in video with background cues,” Proc. ACM ICMR, pp.160-168, 2018.
CrossRef
[17] Y. Wang, L. Wang, and F. Su, “A robust approach for scene text detection and tracking in video,” Proc. PCM, pp.303-314, 2018.