SlideShare une entreprise Scribd logo
1  sur  29
Télécharger pour lire hors ligne
K-means / K-médias


 Aluno: Wagner Souza Santos
Roteiro
●   História
●   Espaço Euclidiano
●   Distância Euclidiana
●   Características
●   Definições
●   Algoritmo
História
●   Em 1957, Władysław Hugo Dionizy Steinhaus
    propõe o método k-means de clusterização.
●   Em 1957, Stuart Lloyd propõe um algoritmo-base
    para o método k-means, porém este seria usado
    como um técnica de modulação de pulso de
    código, representar digitalmente amostras de sinais
    analógicos. Este algoritmo não foi publicado fora da
    Bell labs até 1982.
História
●   A primeiro uso do termo k-means foi em 1967
    por James MacQueen em seu artigo
    intitulado: “Some Methods for Classification
    and Analysis of Multivariate Observations”.
●   Em 1965, E. W. Forgy publicou o mesmo
    algoritmo que Sturart Lloyd. Esse algoritmo
    também também é conhecido como Lloyd-
    Forgy
Espaço Euclidiano
●   O espaço euclidiano n-dimensional (n ∈
    N) é o produto cartesiano de n fatores
    iguais a R: R^n = R × R × . . . . . . × R.
●   Se n = 1, R¹ = R é a reta; se n = 2, R² é o
    plano e se n = 3, R³ é o espaço
    euclidiano tridimensional.
Distância Euclidiana
●   É a distância entre dois pontos, que pode
    ser provada pela aplicação repetida do
    teorema de Pitágoras.
●   A distância euclidiana entre os pontos
    P(p1, p2, …, pn) e Q(q1,q2, ..., qn), num
    espaço euclidiano n-dimensional, é
    definida como:
Distância Euclidiana
●   R²



         x = (2,5)


                     1.41   d ( x, y ) =   ( 2 − 3) 2 + ( 5 − 4 ) 2   = 2 = 1.41


                y = (3,4)
Distância Euclidiana
●   R³




         d ( x, y ) =   ( 2 − 3) 2 + ( 4 − 3) 2 + (5 − 3) 2   = 6 = 2.44
Características
●   O algoritmo K-means pertence a classe
    dos algoritmos de apredizado de
    máquina não supervisionados.
●   Não há uma rotulação dos dados a priori.
●   Aprendizado por observação.
Cluster
●   Uma coleção de objetos que são
    similares entre si, e diferentes dos
    objetos pertencentes a outros clusters.
Clusterização / Clustering
●   É a organização dos objetos similares
    (em algum aspecto) em grupos.




                 Quatro grupos (clusters)
Centróide
●   Representa o centro de um grupo, sendo
    calculado pela média de todos os objetos
    do grupo/cluster.
Ideia
●   (PASSO 1) Atribuem-se valores iniciais para os
    protótipos seguindo algum critério.
●   (PASSO 2) Atribui-se cada objeto ao grupo cujo
    protótipo possua maior similaridade com o objeto.
●   (PASSO 3) Recalcula-se o valor do centróide de
    cada grupo, como sendo a média dos objetos
    atuais do grupo.
●   (PASSO 4) Repete-se os passos 2 e 3 até que os
    grupos se estabilizem.
Complexidade
●   O( n * K * I * d ), onde:
    –   n = total de pontos
    –   K = número de clusters
    –   I = número de iterações
    –   d = número de atributos/características
Pseudo-Código
●   Sendo:
    –   {x1, x2, ..., xn} = estrutura de dados
        contendo valores a serem clusterizados. Por
        exemplo, uma matriz esparça
    –   K = total de clusters
    –   A = conjuntos de atributos que irão inteferir
        na separação
    –   {c1, c2, ..., ck} = conjunto de centróides
    –   {u1, u2, ..., uk} = estrutura de dados
        contendo os elementos dos clusters
Pseudo-Código
●   K-Means({x1, x2, ..., xn},K,A) #entrada
      (c1, c2, ..., cK) <--- cria_centroids({x1, x2, ..., xn}, K)          #criando k
      centróides
      Para cada cluster K faça:
        uk <--- ck #atribuindo cada centróide a um cluster
        enquando o criterio de parada não for atingido faça: #por exmeplo,
        enquando houver modificações nos clusters ou um trocou=true
           para cada cluster K faça:
           cluster[k] = {}
           para cada ponto P faça: #o total de pontos é n
             atribui_ponto_ao_cluster(P, A, cluster) #calcula-se a distância do
             ponto ao centróide de cada cluster e este ponto irá permanecer no cluster que
             tiver a menor distância
          para cada cluster K faça:
            uk <-- novo_centroid(K) #recalculando os centródes
●
    return {u1, u2, ..., uk}
Exemplo




      Objetos em um plano 2D
Exemplo




    Passo 1:Centróides inseridos aleatoriamente
Exemplo




   Passo 2: Atribuir a cada objeto o centróide mais próximo
Exemplo




      Passo 3: Recalcular os centróides
Bisecting K-Means
●   Variação hierárquica do algoritmo k-
    means, que em cada iteração, seleciona
    um grupo e o divide, de forma a gerar
    uma hierarquia.
Bisecting K-Means
●   Selecionar um cluster para dividir.
●   Encontrar 2 sub-clusters usando o algoritmo K-means
    básico.
●   Repetir o passo 2 por uma quantidade fixa de vezes e
    escolher a divisão que produzir o cluster com a maior
    similaridade global. (Para cada cluster, sua similaridade
    é a similaridade média de pares de documentos)
●   Repetir os passos 1, 2 e 3 até que o número desejado
    de clusters seja alcançado.
Prós
●   Simples
●   Entre os 10 algoritmos mais influentes
    em DataMining.
●   Variações com ótimos resultados como o
    Bisecting K-Means.
Contras
●   Clusters de tamanhos diferentes.
●   Clusters de diferentes densidades.
●   Clusters em forma não-globular.
●   Clusters vazios.
Densidades Diferentes




   Pontos Originais   K-Means (3 Clusters)
Formas Não-Globulares




    Pontos Originais   K-Means (2 Clusters)
Dúvidas?
Referências
●   http://en.wikipedia.org/wiki/K-
    means_clustering
●   http://en.wikipedia.org/wiki/Euclidean_space
●   http://en.wikipedia.org/wiki/Pulse-
    code_modulation
●   http://pt.wikipedia.org/wiki/Espa
    %C3%A7o_euclidiano
●   http://nlp.stanford.edu/IR-
    book/html/htmledition/k-means-1.html
Referências
●   http://www.decom.ufop.br/menotti/rp102/slides
    /04-TiposAprendizagem.ppt
●   http://www.inf.ufes.br/~claudine/courses/paa1
    0/seminarios/seminario4.pdf
●   http://www.ipcsit.com/vol27/43-ICICN2012-
    N20017.pdf
●   http://www.cs.uvm.edu/~xwu/kdd/Slides/Kmea
    ns-ICDM06.pdf

Contenu connexe

Tendances

Estatística para os cursos de : economia, administração e ciênicas contáb...
	 Estatística para os cursos de :   economia, administração e ciênicas contáb...	 Estatística para os cursos de :   economia, administração e ciênicas contáb...
Estatística para os cursos de : economia, administração e ciênicas contáb...Luiz Carlos
 
Exercícios Resolvidos: Taxa relacionada
Exercícios Resolvidos: Taxa relacionadaExercícios Resolvidos: Taxa relacionada
Exercícios Resolvidos: Taxa relacionadaDiego Oliveira
 
Função quadratica história e curiosidades
Função quadratica história e curiosidadesFunção quadratica história e curiosidades
Função quadratica história e curiosidadesmonica_cassia
 
Exercicios resolvidos
Exercicios resolvidosExercicios resolvidos
Exercicios resolvidosTiesco
 
Vazão máxima admissível em tubulação de PVC
Vazão máxima admissível em tubulação de PVCVazão máxima admissível em tubulação de PVC
Vazão máxima admissível em tubulação de PVCPool Shop Piscinas Ltda
 
Beneficios da micro_filtragem
Beneficios da micro_filtragemBeneficios da micro_filtragem
Beneficios da micro_filtragemNatanael Carvalho
 
Análise dimensional
Análise dimensionalAnálise dimensional
Análise dimensionalRildo Borges
 
Cálculo Numérico - Aula 03: Zeros de funções
Cálculo Numérico - Aula 03: Zeros de funçõesCálculo Numérico - Aula 03: Zeros de funções
Cálculo Numérico - Aula 03: Zeros de funçõesRodolfo Almeida
 
Aula 8 dimensionamento de lodos ativados
Aula 8   dimensionamento de lodos ativadosAula 8   dimensionamento de lodos ativados
Aula 8 dimensionamento de lodos ativadosGiovanna Ortiz
 
Nbr 12216 92 projeto de estação de tratamento de água para
Nbr 12216 92   projeto de estação de tratamento de água paraNbr 12216 92   projeto de estação de tratamento de água para
Nbr 12216 92 projeto de estação de tratamento de água paraJacqueline Schultz
 
Indução Matemática - Exemplos
Indução Matemática - ExemplosIndução Matemática - Exemplos
Indução Matemática - ExemplosCarlos Campani
 
T48313 d gl 240 m - v2.0
T48313 d   gl 240 m - v2.0T48313 d   gl 240 m - v2.0
T48313 d gl 240 m - v2.0Tiago Oliveira
 
Mecatrónica sistema de-informacao-5027pptx
Mecatrónica sistema de-informacao-5027pptxMecatrónica sistema de-informacao-5027pptx
Mecatrónica sistema de-informacao-5027pptxInes800755
 

Tendances (20)

Operações com intervalos
Operações com intervalosOperações com intervalos
Operações com intervalos
 
Aula 05 derivadas - conceitos iniciais
Aula 05   derivadas - conceitos iniciaisAula 05   derivadas - conceitos iniciais
Aula 05 derivadas - conceitos iniciais
 
Estatística para os cursos de : economia, administração e ciênicas contáb...
	 Estatística para os cursos de :   economia, administração e ciênicas contáb...	 Estatística para os cursos de :   economia, administração e ciênicas contáb...
Estatística para os cursos de : economia, administração e ciênicas contáb...
 
Exercícios Resolvidos: Taxa relacionada
Exercícios Resolvidos: Taxa relacionadaExercícios Resolvidos: Taxa relacionada
Exercícios Resolvidos: Taxa relacionada
 
Função quadratica história e curiosidades
Função quadratica história e curiosidadesFunção quadratica história e curiosidades
Função quadratica história e curiosidades
 
Exercicios resolvidos
Exercicios resolvidosExercicios resolvidos
Exercicios resolvidos
 
Vazão máxima admissível em tubulação de PVC
Vazão máxima admissível em tubulação de PVCVazão máxima admissível em tubulação de PVC
Vazão máxima admissível em tubulação de PVC
 
Beneficios da micro_filtragem
Beneficios da micro_filtragemBeneficios da micro_filtragem
Beneficios da micro_filtragem
 
Análise dimensional
Análise dimensionalAnálise dimensional
Análise dimensional
 
Cálculo Numérico - Aula 03: Zeros de funções
Cálculo Numérico - Aula 03: Zeros de funçõesCálculo Numérico - Aula 03: Zeros de funções
Cálculo Numérico - Aula 03: Zeros de funções
 
Aula de LOGARITMOS
Aula de LOGARITMOSAula de LOGARITMOS
Aula de LOGARITMOS
 
Aula 8 dimensionamento de lodos ativados
Aula 8   dimensionamento de lodos ativadosAula 8   dimensionamento de lodos ativados
Aula 8 dimensionamento de lodos ativados
 
Produtos Notáveis 8º ano
Produtos Notáveis 8º anoProdutos Notáveis 8º ano
Produtos Notáveis 8º ano
 
Algoritmos gulosos
Algoritmos gulososAlgoritmos gulosos
Algoritmos gulosos
 
Nbr 12216 92 projeto de estação de tratamento de água para
Nbr 12216 92   projeto de estação de tratamento de água paraNbr 12216 92   projeto de estação de tratamento de água para
Nbr 12216 92 projeto de estação de tratamento de água para
 
Indução Matemática - Exemplos
Indução Matemática - ExemplosIndução Matemática - Exemplos
Indução Matemática - Exemplos
 
T48313 d gl 240 m - v2.0
T48313 d   gl 240 m - v2.0T48313 d   gl 240 m - v2.0
T48313 d gl 240 m - v2.0
 
Aula 02 Cálculo de limites - Conceitos Básicos
Aula 02   Cálculo de limites - Conceitos BásicosAula 02   Cálculo de limites - Conceitos Básicos
Aula 02 Cálculo de limites - Conceitos Básicos
 
1.0 capítulo 4
1.0 capítulo 41.0 capítulo 4
1.0 capítulo 4
 
Mecatrónica sistema de-informacao-5027pptx
Mecatrónica sistema de-informacao-5027pptxMecatrónica sistema de-informacao-5027pptx
Mecatrónica sistema de-informacao-5027pptx
 

En vedette

Data Mining - Clustering
Data Mining - ClusteringData Mining - Clustering
Data Mining - Clusteringiaudesc
 
25 Machine Learning Unsupervised Learaning K-means K-centers
25 Machine Learning Unsupervised Learaning K-means K-centers25 Machine Learning Unsupervised Learaning K-means K-centers
25 Machine Learning Unsupervised Learaning K-means K-centersAndres Mendez-Vazquez
 
K-means, EM and Mixture models
K-means, EM and Mixture modelsK-means, EM and Mixture models
K-means, EM and Mixture modelsVu Pham
 
Algoritmo_ID3_e_C.45_Gilcimar
Algoritmo_ID3_e_C.45_GilcimarAlgoritmo_ID3_e_C.45_Gilcimar
Algoritmo_ID3_e_C.45_Gilcimariaudesc
 
Hadoop Design and k -Means Clustering
Hadoop Design and k -Means ClusteringHadoop Design and k -Means Clustering
Hadoop Design and k -Means ClusteringGeorge Ang
 
Agrupamento (clustering) - K-Means
Agrupamento (clustering) - K-MeansAgrupamento (clustering) - K-Means
Agrupamento (clustering) - K-MeansMarcos Castro
 
Recursos do Ambiente R para a Análise de Clusters
Recursos do Ambiente R para a Análise de ClustersRecursos do Ambiente R para a Análise de Clusters
Recursos do Ambiente R para a Análise de ClustersRodrigo Nunes
 
Backtracking - Gerar todos os subconjuntos
Backtracking - Gerar todos os subconjuntosBacktracking - Gerar todos os subconjuntos
Backtracking - Gerar todos os subconjuntosMarcos Castro
 
Agrupamiento Kmeans
Agrupamiento KmeansAgrupamiento Kmeans
Agrupamiento KmeansOmar Sanchez
 
PNAIC - 9º encontro - Geometria caderno 5
PNAIC - 9º encontro - Geometria caderno 5PNAIC - 9º encontro - Geometria caderno 5
PNAIC - 9º encontro - Geometria caderno 5Rosilane
 
Aula Sobre Coordenadas Cartesianas
Aula Sobre Coordenadas CartesianasAula Sobre Coordenadas Cartesianas
Aula Sobre Coordenadas CartesianasAntonio Carneiro
 
Markov Models
Markov ModelsMarkov Models
Markov ModelsVu Pham
 
K means clustering
K means clusteringK means clustering
K means clusteringkeshav goyal
 

En vedette (20)

Agrupamento com K-Means
Agrupamento com K-MeansAgrupamento com K-Means
Agrupamento com K-Means
 
Data Mining - Clustering
Data Mining - ClusteringData Mining - Clustering
Data Mining - Clustering
 
25 Machine Learning Unsupervised Learaning K-means K-centers
25 Machine Learning Unsupervised Learaning K-means K-centers25 Machine Learning Unsupervised Learaning K-means K-centers
25 Machine Learning Unsupervised Learaning K-means K-centers
 
K-means, EM and Mixture models
K-means, EM and Mixture modelsK-means, EM and Mixture models
K-means, EM and Mixture models
 
O espaço
O espaçoO espaço
O espaço
 
Sistema de coordenadas cartesianas
Sistema de coordenadas cartesianasSistema de coordenadas cartesianas
Sistema de coordenadas cartesianas
 
Algoritmo_ID3_e_C.45_Gilcimar
Algoritmo_ID3_e_C.45_GilcimarAlgoritmo_ID3_e_C.45_Gilcimar
Algoritmo_ID3_e_C.45_Gilcimar
 
Coordenadas
CoordenadasCoordenadas
Coordenadas
 
Hadoop Design and k -Means Clustering
Hadoop Design and k -Means ClusteringHadoop Design and k -Means Clustering
Hadoop Design and k -Means Clustering
 
Agrupamento (clustering) - K-Means
Agrupamento (clustering) - K-MeansAgrupamento (clustering) - K-Means
Agrupamento (clustering) - K-Means
 
Recursos do Ambiente R para a Análise de Clusters
Recursos do Ambiente R para a Análise de ClustersRecursos do Ambiente R para a Análise de Clusters
Recursos do Ambiente R para a Análise de Clusters
 
Backtracking - Gerar todos os subconjuntos
Backtracking - Gerar todos os subconjuntosBacktracking - Gerar todos os subconjuntos
Backtracking - Gerar todos os subconjuntos
 
Agrupamiento Kmeans
Agrupamiento KmeansAgrupamiento Kmeans
Agrupamiento Kmeans
 
PNAIC - 9º encontro - Geometria caderno 5
PNAIC - 9º encontro - Geometria caderno 5PNAIC - 9º encontro - Geometria caderno 5
PNAIC - 9º encontro - Geometria caderno 5
 
Plano cartesiano animado
Plano cartesiano animadoPlano cartesiano animado
Plano cartesiano animado
 
K-Nearest Neighbor
K-Nearest NeighborK-Nearest Neighbor
K-Nearest Neighbor
 
Plano Cartesiano
Plano CartesianoPlano Cartesiano
Plano Cartesiano
 
Aula Sobre Coordenadas Cartesianas
Aula Sobre Coordenadas CartesianasAula Sobre Coordenadas Cartesianas
Aula Sobre Coordenadas Cartesianas
 
Markov Models
Markov ModelsMarkov Models
Markov Models
 
K means clustering
K means clusteringK means clustering
K means clustering
 

Similaire à K-means clustering algorithm

KNN - CUDA - Categorizador de rótulos automatizado
KNN - CUDA - Categorizador de rótulos automatizadoKNN - CUDA - Categorizador de rótulos automatizado
KNN - CUDA - Categorizador de rótulos automatizadoRichiely Paiva
 
Particionamento cassandra
Particionamento   cassandraParticionamento   cassandra
Particionamento cassandraserdg
 
Métodos de clustering para dados intervalares e do tipo histograma
Métodos de clustering para dados intervalares e do tipo histogramaMétodos de clustering para dados intervalares e do tipo histograma
Métodos de clustering para dados intervalares e do tipo histogramaAnderson Dantas
 
Estrutura de dados
Estrutura de dadosEstrutura de dados
Estrutura de dadosgjpbg
 
Apostila estrutura de dados 2
Apostila estrutura de dados 2Apostila estrutura de dados 2
Apostila estrutura de dados 2Leandro Lopes
 
13 introducao a analise de algoritmos
13   introducao a analise de algoritmos13   introducao a analise de algoritmos
13 introducao a analise de algoritmosRicardo Bolanho
 
Complexidade do Algoritmo: Caminho mínimo Floyd Warshall
Complexidade do Algoritmo: Caminho mínimo Floyd WarshallComplexidade do Algoritmo: Caminho mínimo Floyd Warshall
Complexidade do Algoritmo: Caminho mínimo Floyd WarshallLucas Vinícius
 
Otimização no Armazenamento de Imagens por meio da Decomposição em Valores Si...
Otimização no Armazenamento de Imagens por meio da Decomposição em Valores Si...Otimização no Armazenamento de Imagens por meio da Decomposição em Valores Si...
Otimização no Armazenamento de Imagens por meio da Decomposição em Valores Si...Agnaldo Coelho
 
Criptografia com curva_eliptica_dbetoni
Criptografia com curva_eliptica_dbetoniCriptografia com curva_eliptica_dbetoni
Criptografia com curva_eliptica_dbetonidrbetoni
 
Classificação de séries temporais via divergente entre densidades de probabil...
Classificação de séries temporais via divergente entre densidades de probabil...Classificação de séries temporais via divergente entre densidades de probabil...
Classificação de séries temporais via divergente entre densidades de probabil...André Carvalho
 
Apostila de-estatistica-experimental-20141234567
Apostila de-estatistica-experimental-20141234567Apostila de-estatistica-experimental-20141234567
Apostila de-estatistica-experimental-20141234567Erick Amâncio
 
Otimização no Armazenamento de Imagens por meio da Decomposição em Valores Si...
Otimização no Armazenamento de Imagens por meio da Decomposição em Valores Si...Otimização no Armazenamento de Imagens por meio da Decomposição em Valores Si...
Otimização no Armazenamento de Imagens por meio da Decomposição em Valores Si...Agnaldo Coelho
 
Aula1 mba fiap_2018_redes_neurais
Aula1 mba fiap_2018_redes_neuraisAula1 mba fiap_2018_redes_neurais
Aula1 mba fiap_2018_redes_neuraisAhirton Lopes
 

Similaire à K-means clustering algorithm (20)

Floyd-Warshall
Floyd-WarshallFloyd-Warshall
Floyd-Warshall
 
KNN - CUDA - Categorizador de rótulos automatizado
KNN - CUDA - Categorizador de rótulos automatizadoKNN - CUDA - Categorizador de rótulos automatizado
KNN - CUDA - Categorizador de rótulos automatizado
 
Particionamento cassandra
Particionamento   cassandraParticionamento   cassandra
Particionamento cassandra
 
Métodos de clustering para dados intervalares e do tipo histograma
Métodos de clustering para dados intervalares e do tipo histogramaMétodos de clustering para dados intervalares e do tipo histograma
Métodos de clustering para dados intervalares e do tipo histograma
 
Inpe
InpeInpe
Inpe
 
Estrutura de dados
Estrutura de dadosEstrutura de dados
Estrutura de dados
 
Apostila estrutura de dados 2
Apostila estrutura de dados 2Apostila estrutura de dados 2
Apostila estrutura de dados 2
 
13 introducao a analise de algoritmos
13   introducao a analise de algoritmos13   introducao a analise de algoritmos
13 introducao a analise de algoritmos
 
Complexidade do Algoritmo: Caminho mínimo Floyd Warshall
Complexidade do Algoritmo: Caminho mínimo Floyd WarshallComplexidade do Algoritmo: Caminho mínimo Floyd Warshall
Complexidade do Algoritmo: Caminho mínimo Floyd Warshall
 
Criptografia RSA
Criptografia RSACriptografia RSA
Criptografia RSA
 
18comparaciones
18comparaciones18comparaciones
18comparaciones
 
comparaciones
comparacionescomparaciones
comparaciones
 
Otimização no Armazenamento de Imagens por meio da Decomposição em Valores Si...
Otimização no Armazenamento de Imagens por meio da Decomposição em Valores Si...Otimização no Armazenamento de Imagens por meio da Decomposição em Valores Si...
Otimização no Armazenamento de Imagens por meio da Decomposição em Valores Si...
 
Criptografia com curva_eliptica_dbetoni
Criptografia com curva_eliptica_dbetoniCriptografia com curva_eliptica_dbetoni
Criptografia com curva_eliptica_dbetoni
 
Classificação de séries temporais via divergente entre densidades de probabil...
Classificação de séries temporais via divergente entre densidades de probabil...Classificação de séries temporais via divergente entre densidades de probabil...
Classificação de séries temporais via divergente entre densidades de probabil...
 
Apostila de-estatistica-experimental-20141234567
Apostila de-estatistica-experimental-20141234567Apostila de-estatistica-experimental-20141234567
Apostila de-estatistica-experimental-20141234567
 
Dinamicas
DinamicasDinamicas
Dinamicas
 
Otimização no Armazenamento de Imagens por meio da Decomposição em Valores Si...
Otimização no Armazenamento de Imagens por meio da Decomposição em Valores Si...Otimização no Armazenamento de Imagens por meio da Decomposição em Valores Si...
Otimização no Armazenamento de Imagens por meio da Decomposição em Valores Si...
 
Aula1 mba fiap_2018_redes_neurais
Aula1 mba fiap_2018_redes_neuraisAula1 mba fiap_2018_redes_neurais
Aula1 mba fiap_2018_redes_neurais
 
Transformada Rápida de Fourier
Transformada Rápida de FourierTransformada Rápida de Fourier
Transformada Rápida de Fourier
 

Dernier

Bullying - Texto e cruzadinha
Bullying        -     Texto e cruzadinhaBullying        -     Texto e cruzadinha
Bullying - Texto e cruzadinhaMary Alvarenga
 
Slides Lição 03, Central Gospel, O Arrebatamento, 1Tr24.pptx
Slides Lição 03, Central Gospel, O Arrebatamento, 1Tr24.pptxSlides Lição 03, Central Gospel, O Arrebatamento, 1Tr24.pptx
Slides Lição 03, Central Gospel, O Arrebatamento, 1Tr24.pptxLuizHenriquedeAlmeid6
 
Simulado 1 Etapa - 2024 Proximo Passo.pdf
Simulado 1 Etapa - 2024 Proximo Passo.pdfSimulado 1 Etapa - 2024 Proximo Passo.pdf
Simulado 1 Etapa - 2024 Proximo Passo.pdfEditoraEnovus
 
D9 RECONHECER GENERO DISCURSIVO SPA.pptx
D9 RECONHECER GENERO DISCURSIVO SPA.pptxD9 RECONHECER GENERO DISCURSIVO SPA.pptx
D9 RECONHECER GENERO DISCURSIVO SPA.pptxRonys4
 
COMPETÊNCIA 1 DA REDAÇÃO DO ENEM - REDAÇÃO ENEM
COMPETÊNCIA 1 DA REDAÇÃO DO ENEM - REDAÇÃO ENEMCOMPETÊNCIA 1 DA REDAÇÃO DO ENEM - REDAÇÃO ENEM
COMPETÊNCIA 1 DA REDAÇÃO DO ENEM - REDAÇÃO ENEMVanessaCavalcante37
 
Programa de Intervenção com Habilidades Motoras
Programa de Intervenção com Habilidades MotorasPrograma de Intervenção com Habilidades Motoras
Programa de Intervenção com Habilidades MotorasCassio Meira Jr.
 
ANTIGUIDADE CLÁSSICA - Grécia e Roma Antiga
ANTIGUIDADE CLÁSSICA - Grécia e Roma AntigaANTIGUIDADE CLÁSSICA - Grécia e Roma Antiga
ANTIGUIDADE CLÁSSICA - Grécia e Roma AntigaJúlio Sandes
 
02. Informática - Windows 10 apostila completa.pdf
02. Informática - Windows 10 apostila completa.pdf02. Informática - Windows 10 apostila completa.pdf
02. Informática - Windows 10 apostila completa.pdfJorge Andrade
 
Habilidades Motoras Básicas e Específicas
Habilidades Motoras Básicas e EspecíficasHabilidades Motoras Básicas e Específicas
Habilidades Motoras Básicas e EspecíficasCassio Meira Jr.
 
ELETIVA TEXTOS MULTIMODAIS LINGUAGEM VER
ELETIVA TEXTOS MULTIMODAIS LINGUAGEM VERELETIVA TEXTOS MULTIMODAIS LINGUAGEM VER
ELETIVA TEXTOS MULTIMODAIS LINGUAGEM VERDeiciane Chaves
 
Governo Provisório Era Vargas 1930-1934 Brasil
Governo Provisório Era Vargas 1930-1934 BrasilGoverno Provisório Era Vargas 1930-1934 Brasil
Governo Provisório Era Vargas 1930-1934 Brasillucasp132400
 
E agora?! Já não avalio as atitudes e valores?
E agora?! Já não avalio as atitudes e valores?E agora?! Já não avalio as atitudes e valores?
E agora?! Já não avalio as atitudes e valores?Rosalina Simão Nunes
 
LEMBRANDO A MORTE E CELEBRANDO A RESSUREIÇÃO
LEMBRANDO A MORTE E CELEBRANDO A RESSUREIÇÃOLEMBRANDO A MORTE E CELEBRANDO A RESSUREIÇÃO
LEMBRANDO A MORTE E CELEBRANDO A RESSUREIÇÃOColégio Santa Teresinha
 
Gerenciando a Aprendizagem Organizacional
Gerenciando a Aprendizagem OrganizacionalGerenciando a Aprendizagem Organizacional
Gerenciando a Aprendizagem OrganizacionalJacqueline Cerqueira
 
UFCD_10392_Intervenção em populações de risco_índice .pdf
UFCD_10392_Intervenção em populações de risco_índice .pdfUFCD_10392_Intervenção em populações de risco_índice .pdf
UFCD_10392_Intervenção em populações de risco_índice .pdfManuais Formação
 
AD2 DIDÁTICA.KARINEROZA.SHAYANNE.BINC.ROBERTA.pptx
AD2 DIDÁTICA.KARINEROZA.SHAYANNE.BINC.ROBERTA.pptxAD2 DIDÁTICA.KARINEROZA.SHAYANNE.BINC.ROBERTA.pptx
AD2 DIDÁTICA.KARINEROZA.SHAYANNE.BINC.ROBERTA.pptxkarinedarozabatista
 
Slides Lição 5, CPAD, Os Inimigos do Cristão, 2Tr24, Pr Henrique.pptx
Slides Lição 5, CPAD, Os Inimigos do Cristão, 2Tr24, Pr Henrique.pptxSlides Lição 5, CPAD, Os Inimigos do Cristão, 2Tr24, Pr Henrique.pptx
Slides Lição 5, CPAD, Os Inimigos do Cristão, 2Tr24, Pr Henrique.pptxLuizHenriquedeAlmeid6
 
Universidade Empreendedora como uma Plataforma para o Bem comum
Universidade Empreendedora como uma Plataforma para o Bem comumUniversidade Empreendedora como uma Plataforma para o Bem comum
Universidade Empreendedora como uma Plataforma para o Bem comumPatrícia de Sá Freire, PhD. Eng.
 

Dernier (20)

Bullying - Texto e cruzadinha
Bullying        -     Texto e cruzadinhaBullying        -     Texto e cruzadinha
Bullying - Texto e cruzadinha
 
Slides Lição 03, Central Gospel, O Arrebatamento, 1Tr24.pptx
Slides Lição 03, Central Gospel, O Arrebatamento, 1Tr24.pptxSlides Lição 03, Central Gospel, O Arrebatamento, 1Tr24.pptx
Slides Lição 03, Central Gospel, O Arrebatamento, 1Tr24.pptx
 
Simulado 1 Etapa - 2024 Proximo Passo.pdf
Simulado 1 Etapa - 2024 Proximo Passo.pdfSimulado 1 Etapa - 2024 Proximo Passo.pdf
Simulado 1 Etapa - 2024 Proximo Passo.pdf
 
D9 RECONHECER GENERO DISCURSIVO SPA.pptx
D9 RECONHECER GENERO DISCURSIVO SPA.pptxD9 RECONHECER GENERO DISCURSIVO SPA.pptx
D9 RECONHECER GENERO DISCURSIVO SPA.pptx
 
COMPETÊNCIA 1 DA REDAÇÃO DO ENEM - REDAÇÃO ENEM
COMPETÊNCIA 1 DA REDAÇÃO DO ENEM - REDAÇÃO ENEMCOMPETÊNCIA 1 DA REDAÇÃO DO ENEM - REDAÇÃO ENEM
COMPETÊNCIA 1 DA REDAÇÃO DO ENEM - REDAÇÃO ENEM
 
Programa de Intervenção com Habilidades Motoras
Programa de Intervenção com Habilidades MotorasPrograma de Intervenção com Habilidades Motoras
Programa de Intervenção com Habilidades Motoras
 
ANTIGUIDADE CLÁSSICA - Grécia e Roma Antiga
ANTIGUIDADE CLÁSSICA - Grécia e Roma AntigaANTIGUIDADE CLÁSSICA - Grécia e Roma Antiga
ANTIGUIDADE CLÁSSICA - Grécia e Roma Antiga
 
02. Informática - Windows 10 apostila completa.pdf
02. Informática - Windows 10 apostila completa.pdf02. Informática - Windows 10 apostila completa.pdf
02. Informática - Windows 10 apostila completa.pdf
 
Habilidades Motoras Básicas e Específicas
Habilidades Motoras Básicas e EspecíficasHabilidades Motoras Básicas e Específicas
Habilidades Motoras Básicas e Específicas
 
ELETIVA TEXTOS MULTIMODAIS LINGUAGEM VER
ELETIVA TEXTOS MULTIMODAIS LINGUAGEM VERELETIVA TEXTOS MULTIMODAIS LINGUAGEM VER
ELETIVA TEXTOS MULTIMODAIS LINGUAGEM VER
 
Governo Provisório Era Vargas 1930-1934 Brasil
Governo Provisório Era Vargas 1930-1934 BrasilGoverno Provisório Era Vargas 1930-1934 Brasil
Governo Provisório Era Vargas 1930-1934 Brasil
 
E agora?! Já não avalio as atitudes e valores?
E agora?! Já não avalio as atitudes e valores?E agora?! Já não avalio as atitudes e valores?
E agora?! Já não avalio as atitudes e valores?
 
LEMBRANDO A MORTE E CELEBRANDO A RESSUREIÇÃO
LEMBRANDO A MORTE E CELEBRANDO A RESSUREIÇÃOLEMBRANDO A MORTE E CELEBRANDO A RESSUREIÇÃO
LEMBRANDO A MORTE E CELEBRANDO A RESSUREIÇÃO
 
Gerenciando a Aprendizagem Organizacional
Gerenciando a Aprendizagem OrganizacionalGerenciando a Aprendizagem Organizacional
Gerenciando a Aprendizagem Organizacional
 
UFCD_10392_Intervenção em populações de risco_índice .pdf
UFCD_10392_Intervenção em populações de risco_índice .pdfUFCD_10392_Intervenção em populações de risco_índice .pdf
UFCD_10392_Intervenção em populações de risco_índice .pdf
 
Orientação Técnico-Pedagógica EMBcae Nº 001, de 16 de abril de 2024
Orientação Técnico-Pedagógica EMBcae Nº 001, de 16 de abril de 2024Orientação Técnico-Pedagógica EMBcae Nº 001, de 16 de abril de 2024
Orientação Técnico-Pedagógica EMBcae Nº 001, de 16 de abril de 2024
 
Bullying, sai pra lá
Bullying,  sai pra láBullying,  sai pra lá
Bullying, sai pra lá
 
AD2 DIDÁTICA.KARINEROZA.SHAYANNE.BINC.ROBERTA.pptx
AD2 DIDÁTICA.KARINEROZA.SHAYANNE.BINC.ROBERTA.pptxAD2 DIDÁTICA.KARINEROZA.SHAYANNE.BINC.ROBERTA.pptx
AD2 DIDÁTICA.KARINEROZA.SHAYANNE.BINC.ROBERTA.pptx
 
Slides Lição 5, CPAD, Os Inimigos do Cristão, 2Tr24, Pr Henrique.pptx
Slides Lição 5, CPAD, Os Inimigos do Cristão, 2Tr24, Pr Henrique.pptxSlides Lição 5, CPAD, Os Inimigos do Cristão, 2Tr24, Pr Henrique.pptx
Slides Lição 5, CPAD, Os Inimigos do Cristão, 2Tr24, Pr Henrique.pptx
 
Universidade Empreendedora como uma Plataforma para o Bem comum
Universidade Empreendedora como uma Plataforma para o Bem comumUniversidade Empreendedora como uma Plataforma para o Bem comum
Universidade Empreendedora como uma Plataforma para o Bem comum
 

K-means clustering algorithm

  • 1. K-means / K-médias Aluno: Wagner Souza Santos
  • 2. Roteiro ● História ● Espaço Euclidiano ● Distância Euclidiana ● Características ● Definições ● Algoritmo
  • 3. História ● Em 1957, Władysław Hugo Dionizy Steinhaus propõe o método k-means de clusterização. ● Em 1957, Stuart Lloyd propõe um algoritmo-base para o método k-means, porém este seria usado como um técnica de modulação de pulso de código, representar digitalmente amostras de sinais analógicos. Este algoritmo não foi publicado fora da Bell labs até 1982.
  • 4. História ● A primeiro uso do termo k-means foi em 1967 por James MacQueen em seu artigo intitulado: “Some Methods for Classification and Analysis of Multivariate Observations”. ● Em 1965, E. W. Forgy publicou o mesmo algoritmo que Sturart Lloyd. Esse algoritmo também também é conhecido como Lloyd- Forgy
  • 5. Espaço Euclidiano ● O espaço euclidiano n-dimensional (n ∈ N) é o produto cartesiano de n fatores iguais a R: R^n = R × R × . . . . . . × R. ● Se n = 1, R¹ = R é a reta; se n = 2, R² é o plano e se n = 3, R³ é o espaço euclidiano tridimensional.
  • 6. Distância Euclidiana ● É a distância entre dois pontos, que pode ser provada pela aplicação repetida do teorema de Pitágoras. ● A distância euclidiana entre os pontos P(p1, p2, …, pn) e Q(q1,q2, ..., qn), num espaço euclidiano n-dimensional, é definida como:
  • 7. Distância Euclidiana ● R² x = (2,5) 1.41 d ( x, y ) = ( 2 − 3) 2 + ( 5 − 4 ) 2 = 2 = 1.41 y = (3,4)
  • 8. Distância Euclidiana ● R³ d ( x, y ) = ( 2 − 3) 2 + ( 4 − 3) 2 + (5 − 3) 2 = 6 = 2.44
  • 9. Características ● O algoritmo K-means pertence a classe dos algoritmos de apredizado de máquina não supervisionados. ● Não há uma rotulação dos dados a priori. ● Aprendizado por observação.
  • 10. Cluster ● Uma coleção de objetos que são similares entre si, e diferentes dos objetos pertencentes a outros clusters.
  • 11. Clusterização / Clustering ● É a organização dos objetos similares (em algum aspecto) em grupos. Quatro grupos (clusters)
  • 12. Centróide ● Representa o centro de um grupo, sendo calculado pela média de todos os objetos do grupo/cluster.
  • 13. Ideia ● (PASSO 1) Atribuem-se valores iniciais para os protótipos seguindo algum critério. ● (PASSO 2) Atribui-se cada objeto ao grupo cujo protótipo possua maior similaridade com o objeto. ● (PASSO 3) Recalcula-se o valor do centróide de cada grupo, como sendo a média dos objetos atuais do grupo. ● (PASSO 4) Repete-se os passos 2 e 3 até que os grupos se estabilizem.
  • 14. Complexidade ● O( n * K * I * d ), onde: – n = total de pontos – K = número de clusters – I = número de iterações – d = número de atributos/características
  • 15. Pseudo-Código ● Sendo: – {x1, x2, ..., xn} = estrutura de dados contendo valores a serem clusterizados. Por exemplo, uma matriz esparça – K = total de clusters – A = conjuntos de atributos que irão inteferir na separação – {c1, c2, ..., ck} = conjunto de centróides – {u1, u2, ..., uk} = estrutura de dados contendo os elementos dos clusters
  • 16. Pseudo-Código ● K-Means({x1, x2, ..., xn},K,A) #entrada (c1, c2, ..., cK) <--- cria_centroids({x1, x2, ..., xn}, K) #criando k centróides Para cada cluster K faça: uk <--- ck #atribuindo cada centróide a um cluster enquando o criterio de parada não for atingido faça: #por exmeplo, enquando houver modificações nos clusters ou um trocou=true para cada cluster K faça: cluster[k] = {} para cada ponto P faça: #o total de pontos é n atribui_ponto_ao_cluster(P, A, cluster) #calcula-se a distância do ponto ao centróide de cada cluster e este ponto irá permanecer no cluster que tiver a menor distância para cada cluster K faça: uk <-- novo_centroid(K) #recalculando os centródes ● return {u1, u2, ..., uk}
  • 17. Exemplo Objetos em um plano 2D
  • 18. Exemplo Passo 1:Centróides inseridos aleatoriamente
  • 19. Exemplo Passo 2: Atribuir a cada objeto o centróide mais próximo
  • 20. Exemplo Passo 3: Recalcular os centróides
  • 21. Bisecting K-Means ● Variação hierárquica do algoritmo k- means, que em cada iteração, seleciona um grupo e o divide, de forma a gerar uma hierarquia.
  • 22. Bisecting K-Means ● Selecionar um cluster para dividir. ● Encontrar 2 sub-clusters usando o algoritmo K-means básico. ● Repetir o passo 2 por uma quantidade fixa de vezes e escolher a divisão que produzir o cluster com a maior similaridade global. (Para cada cluster, sua similaridade é a similaridade média de pares de documentos) ● Repetir os passos 1, 2 e 3 até que o número desejado de clusters seja alcançado.
  • 23. Prós ● Simples ● Entre os 10 algoritmos mais influentes em DataMining. ● Variações com ótimos resultados como o Bisecting K-Means.
  • 24. Contras ● Clusters de tamanhos diferentes. ● Clusters de diferentes densidades. ● Clusters em forma não-globular. ● Clusters vazios.
  • 25. Densidades Diferentes Pontos Originais K-Means (3 Clusters)
  • 26. Formas Não-Globulares Pontos Originais K-Means (2 Clusters)
  • 28. Referências ● http://en.wikipedia.org/wiki/K- means_clustering ● http://en.wikipedia.org/wiki/Euclidean_space ● http://en.wikipedia.org/wiki/Pulse- code_modulation ● http://pt.wikipedia.org/wiki/Espa %C3%A7o_euclidiano ● http://nlp.stanford.edu/IR- book/html/htmledition/k-means-1.html
  • 29. Referências ● http://www.decom.ufop.br/menotti/rp102/slides /04-TiposAprendizagem.ppt ● http://www.inf.ufes.br/~claudine/courses/paa1 0/seminarios/seminario4.pdf ● http://www.ipcsit.com/vol27/43-ICICN2012- N20017.pdf ● http://www.cs.uvm.edu/~xwu/kdd/Slides/Kmea ns-ICDM06.pdf