Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.
Mineração de	dados	com	
RapidMiner +	WEKA
Clusterização
PROF.	JOÃO GABRIEL	LIMA
@JGABRIEL_LIMA
LINKEDIN.COM/IN/JOAOGABRIEL...
Prof.	João Gabriel	Lima
• Pesquisador em Mineração de	dados	e	Inteligência Computacional;	
• Engenheiro da	Computação,	esp...
Processo de	Extração do	conhecimento
Mineração de	dados	com	RapidMiner +	WEKA	- Prof.	João Gabriel	Lima
Conhecendo nossa base	de	dados
ENTENDER O	DOMÍNIO E	O	CONHECIMENTO QUE	PODEMOS
EXTRAIR
Mineração de	dados	com	RapidMiner +...
Qual a	história dos	seus dados?	
…E	AS	PERGUNTAS QUE	QUEREMOS RESPONDER
Mineração de	dados	com	RapidMiner +	WEKA	- Prof.	J...
Base	de	dados	- BMW
Os exemplos giram em torno de	uma concessionária local	da	BMW	e	como ela pode aumentar as	vendas.	
A	c...
Como	podemos extrair esse
conhecimento?
VAMOS	VER	UM	POUCO	SOBRE	QUAIS	MÉTODOS	VAMOS	APLICAR...
Mineração de	dados	com	Rap...
Regressão
◦ Determinar quanto as	pessoas pagaram pelos carros anteriores da	
concessionária,	baseando-se	nos atributos e	c...
Classificação
Qual a	probabilidade de	uma pessoa X	comprar o	mais novo	
modelo BMW	M5?
Criando uma árvore de	classificação...
Clusterização
Comparar a idade dos compradores prévios de
carros e as cores que eles compraram no passado.
A partir desses...
Clusterização
ENCONTRANDO	GRUPOS EM	SEUS	DADOS
Mineração de	dados	com	RapidMiner +	WEKA	- Prof.	João Gabriel	Lima
O	que	é?
o Método que	permite que	um	usuário faça grupos de	dados	para	
determinar padrões a	partir dos	dados.
o Um	benefí...
Visão matemática
§ Cada atributo nesse conjunto de dados deve ser normalizado, pelo qual cada
valor é dividido pela difere...
Visão matemática
§ Dado o número de clusters desejados, selecione, de
maneira aleatória, esse número de amostras do conjun...
Visão matemática
• Calcule a distância de cada amostra de dados até o centro
do cluster (ou linha de dados selecionada ale...
Visão matemática
• Calcule o	centroide, que	é a	média de	cada coluna de	dados	
usando somente os membros de	cada cluster.
...
Esse é o	
processo de	
clusterização!
Perfeito!	e	aí?
Vamos lá:	Passo-a-Passo
o Carregue o	arquivo de	dados	no	WEKA	usando as	mesmas etapas que	usamos para	carregar
dados	na gu...
Vamos lá:	Passo-a-Passo
oNa	guia Cluster,	clique	em Choose e	selecione SimpleKMeans a	partir das	opções que	
aparecem
Vamos lá:	Passo-a-Passo
o Vamos justar o	campo	numClusters,	que	nos diz quantos clusters	desejamos criar
Vamos lá:	Passo-a-Passo
oSaída da	clusterização:
Interpretando o	modelo de	clusterização
Mineração de	dados	com	RapidMiner +	WEKA	- Prof.	João Gabriel	Lima
Interpretando o	resultado
Cluster	0	
Grupo de	"Sonhadores",	eles andam pela	
concessionária,	mas	diminui no	que	diz
respei...
Interpretando o	resultado
Cluster	1
"Amantes do	M5”,	pois tendem a	ir
diretamente em direção aos M5,	ignorando os
carros 3...
Interpretando o	resultado
Cluster	2
Não são estatisticamente relevantes e	não
podemos tirar nenhuma conclusão boa	de	seu
c...
Interpretando o	resultado
Cluster	3
Sempre acabam comprando um	carro e	
sempre acabam financiando-o.	Eles andam
pelo estac...
Interpretando o	resultado
Cluster	4
Sempre olham o	3-series	e	nunca olham para	o	
M5,	que	é muito mais caro.	Entram direta...
Já to	safo!
Agora	é
minha vez!
Atividade
HORA	DE	COLOCAR SEUS CONHECIMENTOS EM PRÁTICA
Mineração de	dados	com	RapidMiner +	WEKA	- Prof.	João Gabriel	Lima
Atividade
o Com	uma base	de	dados	om	perfils de	clientes de	um	banco,	faça a	
clusterização dos	clientes analizando,	respe...
Algumas outras fontes de	dados
https://archive.ics.uci.edu/ml/datasets.html
http://snap.stanford.edu/data/index.html
https...
Créditos
https://www.ibm.com/developerworks/br/opensource/library/os-weka2/
https://mineracaodedados.wordpress.com/
http:/...
Mineração de	dados	com	
RapidMiner +	WEKA
Clusterização
PROF.	JOÃO GABRIEL	LIMA
@JGABRIEL_LIMA
LINKEDIN.COM/IN/JOAOGABRIEL...
Prochain SlideShare
Chargement dans…5
×

Mineração de dados com RapidMiner + WEKA - Clusterização

645 vues

Publié le

Nesta apresentação, apresento um passo a passo prático de como clusterizar e mais importante que isso, como interpretar os resultados aplicando isso para auxiliar a tomada de decisão.
No final temos um exercício de fixação muito interessante que nos dá a oportunidade de aplicar os conhecimentos adquiridos.
jgabriel.ufpa@gmail.com

Publié dans : Technologie
  • Soyez le premier à commenter

Mineração de dados com RapidMiner + WEKA - Clusterização

  1. 1. Mineração de dados com RapidMiner + WEKA Clusterização PROF. JOÃO GABRIEL LIMA @JGABRIEL_LIMA LINKEDIN.COM/IN/JOAOGABRIELLIMA Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  2. 2. Prof. João Gabriel Lima • Pesquisador em Mineração de dados e Inteligência Computacional; • Engenheiro da Computação, especialista em Software e Hardware; • Doutorando em Computação Aplicada; Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  3. 3. Processo de Extração do conhecimento Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  4. 4. Conhecendo nossa base de dados ENTENDER O DOMÍNIO E O CONHECIMENTO QUE PODEMOS EXTRAIR Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  5. 5. Qual a história dos seus dados? …E AS PERGUNTAS QUE QUEREMOS RESPONDER Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  6. 6. Base de dados - BMW Os exemplos giram em torno de uma concessionária local da BMW e como ela pode aumentar as vendas. A concessionária armazenou todas suas informações de vendas passadas e informações a respeito de cada pessoa que: comprou uma BMW olhou uma BMW procurou algo no salão de exposição da BMW. A concessionária quer aumentar suas vendas futuras e empregar mineração de dados para conseguir isso. Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  7. 7. Como podemos extrair esse conhecimento? VAMOS VER UM POUCO SOBRE QUAIS MÉTODOS VAMOS APLICAR... Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  8. 8. Regressão ◦ Determinar quanto as pessoas pagaram pelos carros anteriores da concessionária, baseando-se nos atributos e características de vendas dos carros vendidos. O modelo permitiria que a concessionária da BMW inserisse os novos atributos do carro para determinar o preço. "Quanto deveríamos cobrar pela nova BMW M5?” Um modelo de regressão usaria dados de vendas passadas sobre BMWs e M5s Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  9. 9. Classificação Qual a probabilidade de uma pessoa X comprar o mais novo modelo BMW M5? Criando uma árvore de classificação, os dados podem ser minerados para determinar a probabilidade de essa pessoa comprar um novo M5. Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  10. 10. Clusterização Comparar a idade dos compradores prévios de carros e as cores que eles compraram no passado. A partir desses dados, é possível encontrar se certas faixas estão mais propensas a comprar um certo tipo de cor da BMW M5. Que faixa etária gosta da BMW M5 da cor prata? Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  11. 11. Clusterização ENCONTRANDO GRUPOS EM SEUS DADOS Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  12. 12. O que é? o Método que permite que um usuário faça grupos de dados para determinar padrões a partir dos dados. o Um benefício decisivo do armazenamento em cluster sobre a classificação é que cada atributo no conjunto de dados será usado para analisar os dados. o Uma grave desvantagem de usar o armazenamento em cluster é que o usuário necessita saber de antemão quantos grupos ele gostaria de criar Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  13. 13. Visão matemática § Cada atributo nesse conjunto de dados deve ser normalizado, pelo qual cada valor é dividido pela diferença entre o valor alto e o valor baixo no conjunto de dados para esse atributo. § Por exemplo, se o atributo for idade e o valor mais alto for 72 e o valor mais baixo for 16, então, a idade 32 deve ser normalizada para 0,5714. Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  14. 14. Visão matemática § Dado o número de clusters desejados, selecione, de maneira aleatória, esse número de amostras do conjunto de dados para servir como nossos centros iniciais de teste de clusters. § Por exemplo, caso deseje ter três clusters, você selecionaria, de maneira aleatória, três linhas de dados do conjunto de dados. Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  15. 15. Visão matemática • Calcule a distância de cada amostra de dados até o centro do cluster (ou linha de dados selecionada aleatoriamente), usando o método de cálculo de distância dos mínimos quadrados. • Atribua cada linha de dados a um cluster, baseando-se na distância mínima até cada centro do cluster. Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  16. 16. Visão matemática • Calcule o centroide, que é a média de cada coluna de dados usando somente os membros de cada cluster. • Calcule a distância de cada amostra de dados até os centroides recém-criados. •Se os clusters e membros de cluster não mudarem, você terminou e os clusters estão criados. •Caso eles mudem, é necessário começar novamente voltando à etapa 3 e continuando novamente até que os clusters não sejam modificados. Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  17. 17. Esse é o processo de clusterização!
  18. 18. Perfeito! e aí?
  19. 19. Vamos lá: Passo-a-Passo o Carregue o arquivo de dados no WEKA usando as mesmas etapas que usamos para carregar dados na guia Preprocess
  20. 20. Vamos lá: Passo-a-Passo oNa guia Cluster, clique em Choose e selecione SimpleKMeans a partir das opções que aparecem
  21. 21. Vamos lá: Passo-a-Passo o Vamos justar o campo numClusters, que nos diz quantos clusters desejamos criar
  22. 22. Vamos lá: Passo-a-Passo oSaída da clusterização:
  23. 23. Interpretando o modelo de clusterização Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  24. 24. Interpretando o resultado Cluster 0 Grupo de "Sonhadores", eles andam pela concessionária, mas diminui no que diz respeito a entrar na concessionária e, o pior de tudo, eles não compram nada. Atributos Cluster 0 Dealership 0.9615 Showroom 0.6923 ComputerSearch 0.6538 M5 0.4615 3Series 0.3846 Z4 0.5385 Financing 0.4615 Purchase 0 Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  25. 25. Interpretando o resultado Cluster 1 "Amantes do M5”, pois tendem a ir diretamente em direção aos M5, ignorando os carros 3-series e o Z4. Não possuem uma alta taxa de compra. Poderia ser um foco de melhoria para a concessionária, talvez enviando mais vendedores para a seção do M5 Atributos Cluster 1 Dealership 0.6667 Showroom 0.6667 ComputerSearch 0 M5 0.963 3Series 0.4444 Z4 0 Financing 0.6296 Purchase 0.5185 Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  26. 26. Interpretando o resultado Cluster 2 Não são estatisticamente relevantes e não podemos tirar nenhuma conclusão boa de seu comportamento Atributos Cluster 2 Dealership 1 Showroom 0 ComputerSearch 1 M5 1 3Series 0.8 Z4 0.8 Financing 0.8 Purchase 0.4 Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  27. 27. Interpretando o resultado Cluster 3 Sempre acabam comprando um carro e sempre acabam financiando-o. Eles andam pelo estacionamento olhando para os carros, então usam a pesquisa do computador disponível na concessionária. Tendem a comprar M5s ou Z4s (mas nunca 3-series) Atributos Cluster 3 Dealership 0.8571 Showroom 0.5714 ComputerSearch 0.8571 M5 0.7143 3Series 0.0714 Z4 0.5714 Financing 1 Purchase 1 Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  28. 28. Interpretando o resultado Cluster 4 Sempre olham o 3-series e nunca olham para o M5, que é muito mais caro. Entram diretamente no salão de exibição, 50 por cento chegam ao estágio de financiamento, somente 32 por cento acabam finalizando a transação. Atributos Cluster 4 Dealership 0 Showroom 1 ComputerSearch 0.3214 M5 0 3Series 1 Z4 0.6786 Financing 0.5 Purchase 0.3214 Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  29. 29. Já to safo! Agora é minha vez!
  30. 30. Atividade HORA DE COLOCAR SEUS CONHECIMENTOS EM PRÁTICA Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  31. 31. Atividade o Com uma base de dados om perfils de clientes de um banco, faça a clusterização dos clientes analizando, respectivamente, o risco de conceder créditos. o O resultado deve ser um relatório que mostre o processo de clusterização realizado e principalmente INTERPRETE e EXPLIQUE os resultados, mostrando como esse resultado pode vir a auxiliar a tomada de decisão. oBase de dados: https://goo.gl/1ooaYP Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  32. 32. Algumas outras fontes de dados https://archive.ics.uci.edu/ml/datasets.html http://snap.stanford.edu/data/index.html https://www.kaggle.com/datasets Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  33. 33. Créditos https://www.ibm.com/developerworks/br/opensource/library/os-weka2/ https://mineracaodedados.wordpress.com/ http://hunch.net/?p=3692542 http://en.wikipedia.org/wiki/Regression_analysis http://weka.wikispaces.com/ARFF+%28book+version%29 http://www.ibm.com/developerworks/forums/dw_forum.jsp?forum=375&cat=5 https://pt.wikipedia.org/wiki/R%C2%B2 https://pt.wikipedia.org/wiki/Qui-quadrado Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  34. 34. Mineração de dados com RapidMiner + WEKA Clusterização PROF. JOÃO GABRIEL LIMA @JGABRIEL_LIMA LINKEDIN.COM/IN/JOAOGABRIELLIMA Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima

×