A funcionalidade de pesquisa está em construção.
A funcionalidade de pesquisa está em construção.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

News Relation Discovery Based on Association Rule Mining with Combining Factors Descoberta de relações de notícias com base na mineração de regras de associação com fatores de combinação

Nichnan KITTIPHATTANABAWON, Thanaruk THEERAMUNKONG, Ekawit NANTAJEEWARAWAT

  • Exibições de texto completo

    0

  • Cite isto

Resumo:

Recentemente, para rastrear e relacionar documentos noticiosos de diversas fontes, a mineração de regras de associação tem sido aplicada devido ao seu desempenho e escalabilidade. Este artigo apresenta uma investigação empírica sobre como a base de representação de termos, a ponderação de termos e a medida de associação afetam a qualidade das relações descobertas entre documentos noticiosos. Vinte e quatro combinações iniciadas por duas bases de representação de termos, quatro ponderações de termos e três medidas de associação são exploradas com seus resultados comparados ao julgamento humano de relações de três níveis: relações completamente relacionadas, de alguma forma relacionadas e não relacionadas. A avaliação de desempenho é realizada comparando os melhoresk resultados de cada combinação com os das outras usando a chamada incompatibilidade de ordem de classificação (ROM). Os resultados experimentais indicam que uma combinação de bigrama (BG), frequência de termo com frequência inversa de documento (TFIDF) e confiança (CONF), bem como uma combinação de BG, TFIDF e convicção (CONV), alcança o melhor desempenho para encontrar o documentos relacionados, colocando-os em posições superiores com ROM de 0.41% nas 50 relações mais mineradas. No entanto, uma combinação de unigram (UG), TFIDF e lift (LIFT) tem o melhor desempenho ao localizar relações irrelevantes nas classificações mais baixas (top-1100) com 9.63% de ROM. Uma análise detalhada do número de relações de três níveis no que diz respeito às suas classificações também é realizada para examinar as características das relações resultantes. Finalmente, uma discussão e uma análise de erros são apresentadas.

Publicação
IEICE TRANSACTIONS on Information Vol.E94-D No.3 pp.404-415
Data de publicação
2011/03/01
Publicitada
ISSN online
1745-1361
DOI
10.1587/transinf.E94.D.404
Tipo de Manuscrito
Special Section PAPER (Special Section on Knowledge Discovery, Data Mining and Creativity Support System)
Categoria

autores

Palavra-chave