A funcionalidade de pesquisa está em construção.
A funcionalidade de pesquisa está em construção.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Improved Gini-Index Algorithm to Correct Feature-Selection Bias in Text Classification Algoritmo de índice de Gini aprimorado para corrigir viés de seleção de recursos na classificação de texto

Heum PARK, Hyuk-Chul KWON

  • Exibições de texto completo

    0

  • Cite isto

Resumo:

Este artigo apresenta um algoritmo Gini-Index aprimorado para corrigir o viés de seleção de recursos na classificação de texto. O Índice de Gini tem sido usado como medida de divisão para escolher o atributo de divisão mais apropriado na árvore de decisão. Recentemente, foi introduzido um algoritmo aprimorado do Índice de Gini para seleção de recursos, projetado para categorização de texto e baseado na teoria do Índice de Gini, e provou ser melhor que os outros métodos. No entanto, descobrimos que o Índice de Gini ainda mostra um viés de seleção de recursos na classificação de texto, especificamente para conjuntos de dados desequilibrados com um grande número de recursos. O viés de seleção de recursos do Índice de Gini na seleção de recursos é mostrado de três maneiras: 1) os valores de Gini dos recursos de baixa frequência são baixos (na medida de pureza) em geral, independentemente da distribuição dos recursos entre as classes, 2) para alta -características de frequência, os valores de Gini são sempre relativamente altos e 3) para características específicas pertencentes a classes grandes, os valores de Gini são relativamente mais baixos do que aqueles pertencentes a classes pequenas. Portanto, para corrigir esse viés e melhorar a seleção de recursos na classificação de texto usando o Índice de Gini, propomos um algoritmo de Índice de Gini (I-GI) aprimorado com três expressões de Índice de Gini reformuladas. No presente estudo, usamos redução de dimensionalidade global (DR) e DR local para medir a qualidade dos recursos nas seleções de recursos. Nos resultados experimentais para o algoritmo I-GI, obtivemos valores de recursos imparciais e eliminamos muitos recursos gerais irrelevantes, mantendo muitos recursos específicos. Além disso, poderíamos melhorar o desempenho geral da classificação quando utilizamos o método DR local. As médias totais do desempenho de classificação foram aumentadas em 19.4%, 15.9%, 3.3%, 2.8% e 2.9% (kNN) em Micro-F1, 14%, 9.8%, 9.2%, 3.5% e 4.3% (SVM) em Micro-F1, 20%, 16.9%, 2.8%, 3.6% e 3.1% (kNN) na Macro-F1, 16.3%, 14%, 7.1%, 4.4%, 6.3% (SVM) na Macro-F1, em comparação com tf*idf, χ2, Ganho de Informação, Odds Ratio e os métodos Gini-Index existentes de acordo com cada classificador.

Publicação
IEICE TRANSACTIONS on Information Vol.E94-D No.4 pp.855-865
Data de publicação
2011/04/01
Publicitada
ISSN online
1745-1361
DOI
10.1587/transinf.E94.D.855
Tipo de Manuscrito
PAPER
Categoria
Reconhecimento de Padrões

autores

Palavra-chave