ENIA2005

Geração Semi-automática de Taxonomias Usando Clustering
para Generalização de Regras de Associação
Camila Delefrate Martins , Solange Oliveira Rezende
1
Laboratório de Inteligência Computacional
Instituto de Ciências Matemáticas e de Computação
Universidade de São Paulo
Av. Trabalhador São-carlense, 400 - Centro
Caixa Postal: 668 - CEP: 13560-970 - São Carlos - SP
{camiladm, solange}@icmc.usp.br
Abstract. The data mining process aims to obtain valid, novel, useful and un-
derstandable knowledge. Therefore, it is important to develop technics to sup-
port the user when analysing the extracted knowledge, specially in the case
of association, because this technique generates great volume of rules, which
makes its interpretation a difficult task. Taxonomies can be used to reduce this
volume, but its manual construction is a very hard work. In this paper, it is pre-
sented a method to generate taxonomies using clustering, aiming to obtain more
useful and interesting taxonomies and reducing the time spent on this process.
Resumo. O objetivo do processo de mineração de dados é obter conhecimento
válido, novo, útil e compreens´ıvel. Por isso, técnicas que apóiem na análise do
conhecimento extra´ıdo são extremamente importantes, principalmente no caso
da técnica de associação, uma vez que é gerado um grande volume de regras, o
que dificulta sua interpretação. Taxonomias podem ser utilizadas para reduzir
esse volume, porém a construção manual das mesmas é um trabalho custoso.
Assim, é apresentado neste trabalho um método para identificação de taxono-
mias usando clustering, podendo gerar taxonomias mais úteis, interessantes e
reduzindo o tempo gasto no processo.
1. Introdução
O processo de mineração de dados tem como objetivo principal que seus usuários fi-
nais possam analisar, compreender e utilizar o conhecimento extra´ıdo de um conjunto de
dados em um sistema inteligente e/ou como apoio em processos de tomada de decisão
[Rezende et al., 2003]. Um dos maiores problemas da técnica de mineração de dados de-
nominada associação é o grande volume de regras gerado. Tipicamente, somente uma
pequena fração desse grande volume de regras é interessante ao usuário, o qual é cons-
tantemente sobrecarregado com uma grande quantidade de regras semelhantes. Por esse
motivo, é extremamente importante fornecer ferramentas eficientes para apoiar o usuário
na análise desse grande volume de regras.
Dentro desse contexto, foi desenvolvido o algoritmo GART (Generalization of
Association Rules using Taxonomies), que utiliza taxonomias para generalizar regras de
associação [Domingues, 2004]. A técnica de generalização utiliza taxonomias para trans-
formar regras espec´ıficas em conceitos gerais, produzindo conjuntos de regras mais com-
pactos e geralmente mais compreens´ıveis aos usuários [Srikant e Agrawal, 1997]. Para
utilizar o GART, o usuário deve construir e fornecer as taxonomias manualmente, tarefa
V ENIA 1094

que consome tempo considerável e exige um grande conhecimento do dom´ınio da base
de dados. O desenvolvimento de um método para a construção semi-automática de taxo-
nomias pode contribuir para solução desses problemas, provendo aux´ılio durante a etapa
de pós-processamento do conhecimento.
Neste trabalho é apresentado um método para a construção semi-automática de
taxonomias utilizando a técnica de clustering. Assim, ele está organizado da seguinte
maneira: na seção 2 é realizada uma descrição do uso de taxonomias em regras de
associação. O método desenvolvido e os experimentos realizados são descritos na seção 3.
Por fim, na seção 4 são apresentadas as considerações finais.
2. Uso de Taxonomias em Regras de Associação
Uma regra de associação caracteriza o quanto a presença de um conjunto de atributos s
nos registros (transações) de uma base de dados implica na presença de algum outro con-
junto distinto de atributos u nos mesmos registros [Agrawal e Srikant, 1994]. Entretanto,
esta técnica gera um volume muito grande de regras, o que dificulta sua interpretação
pelo usuário. O uso de taxonomias em regras de associação pode auxiliar na redução do
volume de regras extra´ıdas além de facilitar a análise e compreensão do conhecimento.
As taxonomias refletem uma caracterização coletiva ou individual de como os
itens podem ser hierarquicamente classificados [Adamo, 2001]. Por exemplo, pode-se
criar uma taxonomia que agrupe tênis e sandálias como calçados e uma outra que agrupe
camisetas e bermudas como roupas leves. Assim, camisetas ou bermudas ⇒ tênis ou
sandálias pode ser uma representação da regra roupas leves ⇒ calçados. As principais
motivações para o emprego de taxonomias em regras de associação são [Srikant, 2001]:
regras simples (com itens terminais na taxonomia) podem representar conhecimento in-
teressante ao serem agrupadas segundo uma taxonomia; regras muito espec´ıficas podem
ser generalizadas, melhorando a sua compreensão; regras interessantes podem ser identi-
ficadas com o uso de informações contidas nas taxonomias.
A construção manual de taxonomias é uma tarefa custosa, considerando-se o
tempo gasto e o conhecimento do dom´ınio necessário para sua realização. Assim, foi
desenvolvido um método para construção semi-automática de taxonomias utilizando a
técnica clustering para solucionar esse problema. Foram também realizados experimen-
tos a fim de analisar a viabilidade da utilização dessa técnica.
3. Método para Identificação de Taxonomias Usando Clustering
Clustering agrupa exemplos baseado nas caracter´ısticas que esses possuem. Objetos per-
tencentes a um mesmo cluster são mais similares entre si de acordo com alguma medida
de similaridade pré-definida, enquanto que objetos pertencentes a clusters diferentes têm
uma similaridade menor. Dessa maneira, os agrupamentos gerados no processo de clus-
tering podem ser admitidos como taxonomias.
Na Figura 1 é apresentado o método para identificação de taxonomias usando
clustering. Os agrupamentos gerados pelos algoritmos de clustering são analisados pelos
especialistas e aqueles que forem válidos são fornecidos como entrada para o GART.
Para verificar a viabilidade da utilização de clustering na identificação de taxono-
mias foram realizados experimentos com uma base de dados real de um supermercado.
O objetivo desses experimentos é verificar se por meio dos agrupamentos realizados pe-
los algoritmos de clustering é poss´ıvel identificar uma taxonomia de primeiro n´ıvel. Ou
V ENIA 1095

Figura 1: Método para identificaç ão de taxonomias usando clustering
seja, se produtos semelhantes seriam agrupados no mesmo cluster, por exemplo todas as
marcas de biscoito agrupadas no cluster x.
Estão sendo realizados experimentos com três tipos de algoritmos de clus-
tering: o probabil´ıstico AutoClass [Cheeseman et al., 1990], o hierárquico G-cluto
[Rasmussen e Karypis, 2003] e o de otimização K-means [MacQueen, 1967].
Nos experimentos iniciais, após a execução dos algoritmos, foram obtidos alguns
agrupamentos interessantes. Alguns deles são apresentados na Tabela 1.
Tabela 1: Resultados dos algoritmos de clustering na construç ão de taxonomias
AutoClass K-means G-cluto
Produto Cluster Produto Cluster Produto Cluster
Leite A 5 Suco A 16 Creme de leite A 39
Leite B 5 Suco B 16 Creme de leite B 39
Leite C 5 Suco C 16 Creme de leite C 39
Leite D 5 Suco D 16 Creme de leite D 39
Leite E 5 Suco E 16 Creme de leite E 39
Leite F 5 Suco F 16 – –
Leite G 5 Suco G 16 – –
Leite H 5 Suco H 16 – –
Leite I 5 – – – –
Leite J 5 – – – –
Leite L 5 – – – –
Analisando os resultados do algoritmo AutoClass, é poss´ıvel observar que os clus-
ters gerados agrupam, entre outros produtos, a maior parte dos produtos de determinada
marca. Por exemplo, no cluster 5 foram agrupadas praticamente todas as marcas de leite
(aproximadamente 75% do total). Outra observação relevante, é a visualização de alguns
clusters com apenas um grupo de produtos, como o cluster 16 que apresenta apenas as
diferentes marcas de óleo.
O algoritmo K-means também obteve bons resultados, gerando clusters visual-
mente mais fáceis de identificar como contendo apenas determinado produto, por exem-
plo o cluster 16 que é formado somente pelas marcas de suco. Esse algoritmo também
conseguiu agrupar em alguns clusters todas as marcas de determinado produto, caso do
cluster 0 que possui todas as marcas de creme de leite. Porém, em geral, esse algoritmo
apresentou um desempenho um pouco pior que o AutoClass, uma vez que a maioria das
V ENIA 1096

marcas ficou dividida em vários clusters.
Já o algoritmo G-cluto apresentou o pior desempenho para esse experimento, pois
não conseguiu agrupar grandes quantidades dos produtos. Os melhores resultados foram
obtidos com aproximadamente 5 marcas, como no caso de creme de leite (cluster 39).
Estão sendo realizados outros experimentos com os algoritmos de clustering para
validar a metodologia apresentada neste trabalho e para identificar como ela poderia ser
incorporada ao algoritmo GART.
4. Consideraçõe Finais
Neste trabalho foi apresentado um método para identificação de taxonomias usando clus-
tering e alguns experimentos já realizados para analisar a viabilidade desse método. Por
meio dos experimentos iniciais apresentados neste trabalho, foi poss´ıvel observar que em
geral os algoritmos de clustering obtiveram agrupamentos de primeiro n´ıvel melhores
do que aqueles que foram constru´ıdos manualmente em experimentos anteriores. Um
bom exemplo é o resultado do algoritmo AutoClass que agrupou 11 marcas de leite, en-
quanto que manualmente foi poss´ıvel identificar apenas 3 marcas desse mesmo produto
[Domingues, 2004]. Deverão ainda ser realizados experimentos com outras técnicas que
possam ser utilizadas para agrupar objetos.
Referências
Adamo, J.-M. (2001). Data Mining for Association Rules and Sequential Patterns. SV,
New York, NY.
Agrawal, R. e Srikant, R. (1994). Fast algorithms for mining association rules. In
Bocca, J. B., Jarke, M., e Zaniolo, C. (Eds.), Proceedings of the 20th International
Conference on Very Large Data Bases, VLDB’94, pp. 487–499. Dispon´ıvel em:
http://citeseer.nj.nec.com/agrawal94fast.html [12/04/2004].
Cheeseman, P., Kelly, J., Self, M., Stutz, J., Taylor, W., e Freeman, D. (1990). Autoclass:
A bayesian classification system. In Shavlik, J. W. e Dietterich, T. G. (Eds.), Read-
ings in Machine Learning, pp. 296–306. Kaufmann, San Mateo, CA. Dispon´ıvel em:
http://ic.arc.nasa.gov/ic/projects/bayes-group/autoclass/ [08/03/2005].
Domingues, M. A. (2004). Generalização de regras de associação. Dissertação de
mestrado, Instituto de Ciências Matemáticas e de Computação – USP – São Carlos.
MacQueen, J. B. (1967). Some methods for classification and analysis of multivariate
observations. In Proceedings of 5th Berkeley Symposium on Mathematical Statistics
and Probability, volume 1: Statistics, pp. 281–297.
Rasmussen, M. e Karypis, G. (2003). gcluto: An interactive clustering, visualization, and
analysis system. Relatório técnico.
Rezende, S. O., Pugliesi, J. B., Melanda, E. A., e Paula, M. F. (2003). Mineração de
dados. In Rezende, S. O. (Ed.), Sistemas Inteligentes: Fundamentos e Aplicações,
chapter 12, pp. 307–335. Manole, 1 edition.
Srikant, R. (2001). Association rules: Past, present and future. ICCS
2001 International Workshop on Concept Lattice-based theory, methods and
tools for Knowledge Discovery in Databases. Invited Talk. Dispon´ıvel em:
http://www.almaden.ibm.com/cs/people/srikant/talks/assoc.pdf [19/09/2003].
Srikant, R. e Agrawal, R. (1997). Mining generalized association rules. Future Genera-
tion Computer Systems, 13(2/3):161–180.
V ENIA 1097

ENIA2005

Recommandé

Recommandé

Contenu connexe

Similaire à ENIA2005

Similaire à ENIA2005 (20)

ENIA2005