A funcionalidade de pesquisa está em construção.
A funcionalidade de pesquisa está em construção.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

A Novel Double-Tail Generative Adversarial Network for Fast Photo Animation Uma nova rede adversária generativa de cauda dupla para animação fotográfica rápida

Gang LIU, Xin CHEN, Zhixiang GAO

  • Exibições de texto completo

    0

  • Cite isto

Resumo:

A animação fotográfica consiste em transformar fotos de cenas do mundo real em imagens no estilo anime, o que é uma tarefa desafiadora no AIGC (AI Generated Content). Embora os métodos anteriores tenham alcançado resultados promissores, eles frequentemente introduzem artefatos ou distorções perceptíveis. Neste artigo, propomos uma nova rede adversária generativa de cauda dupla (DTGAN) para animação fotográfica rápida. DTGAN é a terceira versão da série AnimeGAN. Portanto, DTGAN também é chamado de AnimeGANv3. O gerador do DTGAN tem duas caudas de saída, uma cauda de suporte para produzir imagens de estilo anime de granulação grossa e uma cauda principal para refinar imagens de estilo anime de granulação grossa. No DTGAN, propomos uma nova técnica de normalização que pode ser aprendida, denominada desnormalização linearmente adaptativa (LADE), para evitar artefatos nas imagens geradas. A fim de melhorar a qualidade visual das imagens geradas no estilo anime, são propostas duas novas funções de perda adequadas para animação fotográfica: 1) a função de perda de suavização de região, que é usada para enfraquecer os detalhes de textura das imagens geradas para obter efeitos de anime com detalhes abstratos; 2) a função de perda de revisão refinada, que é usada para eliminar artefatos e ruídos na imagem gerada no estilo anime, preservando bordas nítidas. Além disso, o gerador do DTGAN é uma estrutura geradora leve com apenas 1.02 milhão de parâmetros na fase de inferência. O DTGAN proposto pode ser facilmente treinado de ponta a ponta com dados de treinamento não pareados. Extensos experimentos foram conduzidos para demonstrar qualitativa e quantitativamente que nosso método pode produzir imagens de estilo anime de alta qualidade a partir de fotos do mundo real e ter um desempenho melhor do que os modelos de última geração.

Publicação
IEICE TRANSACTIONS on Information Vol.E107-D No.1 pp.72-82
Data de publicação
2024/01/01
Publicitada
2023/09/28
ISSN online
1745-1361
DOI
10.1587/transinf.2023EDP7061
Tipo de Manuscrito
PAPER
Categoria
Inteligência Artificial, Mineração de Dados

autores

Gang LIU
  Hubei University of Technology
Xin CHEN
  Wuhan TianYu Information Industry CO., LTD.
Zhixiang GAO
  Wuhan College

Palavra-chave