Clustering Algoritmos K-means

Clustering
André Luís Pitombeira
Universidade Federal do Ceará
andrepitombeira@gmail.com
10 de maio de 2013
André Luís Pitombeira (UFC) Clustering 10 de maio de 2013 1 / 45

Overview
1 Introdução
Clustering
2 Clustering hierárquico
3 Algoritmos K-means
Algoritmo de Bradley, Fayyad e Reina
Algoritmo CURE
Algoritmo GRGPF
4 Stream e Paralelismo
Stream
Algoritmo DBMO
Paralelismo

Introdução
Figura: Era da informação

Introdução
Clustering é o processo utilizado para examinar uma coleção de pontos e
agrupá-los em clusters de acordo com alguma medida de distância. Os
pontos que estão no mesmo cluster tem uma pequena distância uns dos
outros, enquanto pontos em diferentes cluster têm uma distância maior.

Clustering
Operação sobre pontos que formam um espaço
Agrupe os elementos mais próximos
Distância é fundamental

Clustering
Figura: Exemplo de Cluster

Clustering
Espaço euclidiano
Os pontos são vetores de números reais
Distância natural
Muitas distâncias possíveis
Espaço não euclidiano
Distâncias Ad-hoc
Ex. Strings

Clustering
A maldição da dimensionalidade
Espaços N-dimensionais têm propriedades que não são intuitivas.
Quase todos os pares tem a mesma distância
Todos os ângulos entre vetores são próximos a 90 graus

Clustering
A maldição da dimensionalidade
(a) 2 dimensões (b) 3 dimensões
Figura: Representação de um ponto

Clustering
O que pode ser "clustered"?
Imagens
Items de um supermercado
Documentos
Aplicações
Data mining
Text mining
Information retrieval

Clustering
Clustering hierárquico
Considera cada ponto como sendo um cluster e estes pontos passam a ser
combinados entre si de acordo com alguma medida de proximidade.
Atribuição de pontos
Considera os pontos em alguma ordem e cada ponto é atribuído ao cluster
que melhor se adequa.

Aglomerativa
Abordagem "bottom up": cada observação começa em seu próprio cluster
e pares de grupos são mesclados a medida que se sobe na hierarquia.
Divisória
Abordagem "top down": todas as observações começam em um cluster e
são realizadas divisões de forma recursiva a medida que se desce na
hierarquia.

Decida com antecedência:
Como os clusters serão representados?
Como escolheremos dois clusters para o merge?
Quando pararemos de combinar clusters?

Figura: Cluster hierárquico

Qual a abordagem mais eﬁciente?

Figura: Fluxo do clustering hierárquico

while is not time to stop do
pick the best two clusters to merge;
combine those two clusters into one cluster;
end
Algorithm 1: Clustering hierárquico

Para calcular a distância entre nós do cluster utiliza-se centróides,
mas existem alternativas
Ex. distância mínima entre quaisquer dois pontos, sendo um de cada
cluster

Espaços não euclidiano
Não é possivel utilizar o centroid, pois não há o conceito de "ponto
médio"
Solução: clustroids

String ecdab abecb aecdb
abcd 5 3 3
aecdb 2 2
abecb 4
Point Sum Max Sum-sq
abcd 11 5 43
aecdb 7 3 17
abecb 9 4 29
ecdab 11 5 45

Desvantagens
Pontos atribuidos a um cluster não são considerados novamente
Complexidade do algoritmo O(n3)

Algoritmos K-means
A família de algoritmos k-means é do tipo atribuição de pontos. O
algortimo assume um espaço euclidiano e um número k de clusters
conhecidos antecipadamente.

Algoritmos K-means
Figura: Algoritmo k-means

Algoritmos K-means
Figura: k-means clustering

Algoritmos K-means
Figura: k-means clustered

O algoritmo de Bradley, Fayyad e Reina (BFR) é uma variação do k-means
projetado para espaços euclidianos de alta dimensionalidade. O BRF
assume que o possui alguma restrições sobre o formato do cluster que deve
ser distribuido sobre um centroid.

Inicialmente seleciona k pontos
Processa pedaços de dados na memória principal
Três conjuntos na memória principal
Descartados: Conjunto dos clusters
Comprimidos: Conjunto dos pontos
Retidos: Conjunto dos pontos isolados

Processamento dos chunks dados
Pontos próximos ao centroid são adicionados ao cluster
Os outros pontos são aglomerados com o conjunto dos retidos.
Merge os "miniclusters"com o conjunto dos comprimidos
Faça alguma coisa com os pontos restantes e "miniclusters"

Algoritmo CURE
O algoritmo CURE (Clustering Using REpresentatives) assume um espaço
euclidiano. Não assume nada a respeito do formato do cluster. Utiliza
uma coleção de pontos representativos para representar o cluster, ao invés
de utilizar o centroid.

Algoritmo CURE
Figura: Algoritmo CURE

Algoritmo CURE
Figura: Exemplo do CURE

Algoritmo CURE
Após a inicialização deve ser feito o merge dos clusters com a mínima
distância entre os pontos
Atribuir os pontos aos clusters baseado nos pontos representativos

Algoritmo GRGPF
O algortimo GRGPF lida com dados que não estão na memória principal e
não assume um espaço euclidiano. A abordagem usada pelo algoritmo
utiliza ideias de ambas as abordagens hierárquica e atribuição de pontos.
Os clusters são representados por uma amostra dos pontos na memória
principal.

Algoritmo GRGPF
Clusters são representados com features:
N, o número de pontos no cluster
O clustroid do cluster
Os k pontos mais próximos do clustroid
Os k pontos mais distantes do clustroid
Os clusters são organizados em uma árvore

Algoritmo GRGPF
Inicialize a árvore com um algoritmo de memória principal
Nós internos mantêm umas amostra dos clustroids dos clusters
representados por sua sub árvore
Para cada ponto, atribua-o para um cluster passando-o para baixo na
árvore
Em cada nó interno procure na amostra e escolha uma sub árvore
Em uma folha, escolher o cluster com o clustroid mais próximo e
atualizar as features

Algoritmo GRGPF
Conjunto dos pontos mais próximos são usados para mover os
clustroids
Conjunto dos pontos mais distantes são usados para fazer o merge
dos clusters
Eventualmente, quando os clusters crescem muito deve-se fazer o split

Stream
A computação do modelo de stream assume que cada elemento é um
ponto em algum espaço. Realiza-se um precluster para selecionar um
subconjunto de pontos no stream, para que consultas do tipo "quais são
os clusters dos últimos m pontos?"possam ser rapidamente respondidas.

Stream
Sliding Window de N pontos
Consulta nos últimos m <= N pontos
Não assume o espaço
Clusters mudam com o passar do tempo

Algoritmo DBMO
Generalização do algoritmo DGIM
O bucket guarda o seu tamanho, o timestamp e uma coleção de
registros
Responde as consultas por fazer o merge dos buckets que cobrem os
últimos m pontos

Clustering em ambientes paralelos
Map-Reduce
Na maioria dos casos apenas uma tarefa de Reduce
Map tasks
Cluster pontos
O resultado é um conjunto de pares chave-valor com uma chave
ﬁxada em 1 e um valor que é a descrição de algum cluster.
Reduce task faz o merge dos clusters

(a) Netﬂix (b) Google News
Figura: Empresas que desenvolveram soluções de clustering

Perguntas?

The End

Clustering Algoritmos K-means

Recommandé

Recommandé

Contenu connexe

En vedette

En vedette (20)

Clustering Algoritmos K-means