SlideShare une entreprise Scribd logo
1  sur  52
Área, dia/mês/ano
Mineração de Dados
com Apache Mahout
P&D – 26/06/2013
by
Fabíola Souza Fernandes Pereira
Área, dia/mês/anoThe Financial Times of London (1996)
Área, dia/mês/anoThe Financial Times of London (1996)
Área, dia/mês/anoThe NY Times (2012)
Área, dia/mês/anoThe NY Times (2012)
Área, dia/mês/anoScience Daily (2009)
Área, dia/mês/anoScience Daily (2009)
Área, dia/mês/ano
Área, dia/mês/ano
Área, dia/mês/ano
Roteiro
Área, dia/mês/ano
O que é Mineração de Dados?
(em 6 slides)
Área, dia/mês/ano
Área, dia/mês/ano
KDD (Knowledge
Discovery on Databases)
Área, dia/mês/ano
Área, dia/mês/ano
“É a transformação de dados em
conhecimento, através da
descoberta de padrões”
Área, dia/mês/ano
1960 1970 1980 1990 2000
Coleção
de
Dados
e
Arm
azenam
ento
SG
BDs
Sistem
as
de
BD
Avançados
M
ineração
de
D
ados
Nova
G
eração
de
Sistem
as
Integrados
Histórico
Área, dia/mês/ano
DM é interdisciplinar
Área, dia/mês/ano
Quais tipos de dados
são minerados?
Área, dia/mês/ano
Bancos de Dados Relacionais
Análise dos dados de
clientes (idade, salário) para
prever o risco de crédito
para novos clientes
Área, dia/mês/ano
Bancos de Dados Espaciais
Descobrir o comportamento
do clima em áreasmontanhosas
Área, dia/mês/ano
Bancos de Dados Temporais
Qual a melhor forma de
renovar o estoque? Quais
produtos para determinada
época do ano?
Área, dia/mês/ano
Bancos de Dados de Textos
Minerar especificações,
relatórios de erros, tweets,
posts, reviews
Área, dia/mês/ano
Bancos de Dados de Áudio,
Vídeo e Imagens
Segmentação de imagens
Reconhecimento de fala
Área, dia/mês/ano
“É a transformação de dados em
conhecimento, através da
descoberta de padrões”
Texto, áudio, imagem,
relacionais, temporais,
espaciais, …
Anomalias, grupos, classes,
tendências, regras, …
Área, dia/mês/ano
CONHECIMENTO
Meu cliente está ansioso com a vinda da
concorrência.
O Coreo está sendo utilizado para trotes.
Este cartão de crédito foi clonado.
Área, dia/mês/ano
Roteiro
Área, dia/mês/ano
Data MiningWeb
Social
HTML
Opiniões/Sentimentos
Vídeos
Áudio
Imagens
Streams
Área, dia/mês/ano
BIG DATA MINING
Social
HTML
Opiniões/Sentimentos
Vídeos
Áudio
Imagens
Streams
Área, dia/mês/ano
Roteiro
Área, dia/mês/ano
O que é o Mahout?O que é o Mahout?
Área, dia/mês/ano
Mahout é um software de
“Machine Learning” e
Mineração de Dados
Área, dia/mês/ano
Mahout é um software de
“Machine Learning” e
Mineração de Dados
Área, dia/mês/ano
Mahout é um software de
“Machine Learning” e
Mineração de Dados
Área, dia/mês/ano
Ficha técnica:
 Projeto Apache
 Open Source
 Última versão: 0.7
 API Java
 Diversos exemplos prontos
 Diversos algoritmos de DM prontos: K-Means, CF, Naïve Bayes, …
Área, dia/mês/ano
Técnicas de Mineração de Dados
RecomendaçãoRecomendação
ClusterizaçãoClusterização
ClassificaçãoClassificação
Área, dia/mês/ano
RecomendaçãoRecomendação
Área, dia/mês/ano
Recomendação ou Filtro ColaborativoRecomendação ou Filtro Colaborativo
Área, dia/mês/ano
Recomendação ou Filtro ColaborativoRecomendação ou Filtro Colaborativo
Área, dia/mês/ano
ClassificaçãoClassificação
Área, dia/mês/ano
SPAM!!
ClassificaçãoClassificação
Área, dia/mês/ano
SPAM!!
ClassificaçãoClassificação
Área, dia/mês/ano
ClassificaçãoClassificação
Área, dia/mês/ano
ClassificaçãoClassificação
MODELO
Classificador
Amostras
Classificadas Banco de
Testes
MODELO COM REGRAS
CONFIÁVEIS
Área, dia/mês/ano
Clusterização ou AgrupamentoClusterização ou Agrupamento
Área, dia/mês/ano
Clusterização ou AgrupamentoClusterização ou Agrupamento
Área, dia/mês/ano
Clusterização ou AgrupamentoClusterização ou Agrupamento
??
Área, dia/mês/ano
$MAHOUT_HOME/bin/mahout wikipediaXMLSplitter -d
$MAHOUT_HOME/examples/temp/enwiki-latest-pages-
articles10.xml -o wikipedia/chunks -c 64
$MAHOUT_HOME/bin/mahout trainclassifier -i wikipediainput
-o wikipediamodel
$MAHOUT_HOME/bin/mahout testclassifier -m wikipediamodel -d
wikipediainput
Na prática…
Área, dia/mês/ano
Roteiro
Área, dia/mês/ano
PoC Mahout
 Objetivo: separar textos em SPAM ou NÃO SPAM
 Tipos de dados: texto
 Técnica: classificação
 Algoritmo: Naïve Bayes
 Base: 20news group (spamassassin.apache.org/publiccorpus/20021010_spam.tar.bz2)
 3050 arquivos
Área, dia/mês/ano
Roteiro
Área, dia/mês/ano
Inserir mineração de dados e
machine learning no BI da
empresa
Minerar dados reais
Área, dia/mês/ano
Obrigada

Contenu connexe

Similaire à Mineração de Dados com Apache Mahout

Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014
Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014
Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014Marcos Luiz Lins Filho
 
Big Data e suas Vertentes
Big Data e suas VertentesBig Data e suas Vertentes
Big Data e suas VertentesUnicamp
 
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - AngolaAula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angolaalexculpado
 
Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?
Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?
Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?Mauricio Cesar Santos da Purificação
 
Bdii aula01 apresentacao
Bdii aula01 apresentacaoBdii aula01 apresentacao
Bdii aula01 apresentacaosamuel1562314
 
Gov2.0 - Oportunidades e Desafios
Gov2.0 - Oportunidades e DesafiosGov2.0 - Oportunidades e Desafios
Gov2.0 - Oportunidades e DesafiosNuno Salvador
 
Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dadosElton Meira
 
Arquiteturade informaçaoo senac-planetaweb
Arquiteturade informaçaoo senac-planetawebArquiteturade informaçaoo senac-planetaweb
Arquiteturade informaçaoo senac-planetawebDan
 
Padrões Atuais e Futuros para Infraestrutura de Dados Espaciais
Padrões Atuais e Futuros para Infraestrutura de Dados EspaciaisPadrões Atuais e Futuros para Infraestrutura de Dados Espaciais
Padrões Atuais e Futuros para Infraestrutura de Dados EspaciaisLuis Bermudez
 
ICPD_2011_2012
ICPD_2011_2012ICPD_2011_2012
ICPD_2011_2012Rui Raposo
 
Mining software repositories
Mining software repositoriesMining software repositories
Mining software repositoriesRafael Rossi
 
DataViva: Visualizando a economia de Minas Geras e do Brasil
DataViva: Visualizando a economia de Minas Geras e do BrasilDataViva: Visualizando a economia de Minas Geras e do Brasil
DataViva: Visualizando a economia de Minas Geras e do BrasilBig Data Week São Paulo
 
Apresentacao ForumRNP 2015 - Daniela Brauner
Apresentacao ForumRNP 2015 - Daniela BraunerApresentacao ForumRNP 2015 - Daniela Brauner
Apresentacao ForumRNP 2015 - Daniela BraunerDaniela Brauner
 
Big data - Uma visão geral da coisa...
Big data - Uma visão geral da coisa...Big data - Uma visão geral da coisa...
Big data - Uma visão geral da coisa...Arthur Souza
 
AI & Big Data - Personalização da Jornada - PicPay - TDC
AI & Big Data - Personalização da Jornada - PicPay - TDCAI & Big Data - Personalização da Jornada - PicPay - TDC
AI & Big Data - Personalização da Jornada - PicPay - TDCRenan Moreira de Oliveira
 

Similaire à Mineração de Dados com Apache Mahout (20)

Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014
Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014
Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014
 
Big Data e suas Vertentes
Big Data e suas VertentesBig Data e suas Vertentes
Big Data e suas Vertentes
 
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - AngolaAula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angola
 
Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?
Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?
Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?
 
Bdii aula01 apresentacao
Bdii aula01 apresentacaoBdii aula01 apresentacao
Bdii aula01 apresentacao
 
Projeto ely
Projeto elyProjeto ely
Projeto ely
 
Gov2.0 - Oportunidades e Desafios
Gov2.0 - Oportunidades e DesafiosGov2.0 - Oportunidades e Desafios
Gov2.0 - Oportunidades e Desafios
 
Aula BigData.pptx
Aula BigData.pptxAula BigData.pptx
Aula BigData.pptx
 
Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dados
 
Bigadata casese opotunidades
Bigadata casese opotunidadesBigadata casese opotunidades
Bigadata casese opotunidades
 
Big Data, JVM e Redes Sociais
Big Data, JVM e Redes SociaisBig Data, JVM e Redes Sociais
Big Data, JVM e Redes Sociais
 
Arquiteturade informaçaoo senac-planetaweb
Arquiteturade informaçaoo senac-planetawebArquiteturade informaçaoo senac-planetaweb
Arquiteturade informaçaoo senac-planetaweb
 
Padrões Atuais e Futuros para Infraestrutura de Dados Espaciais
Padrões Atuais e Futuros para Infraestrutura de Dados EspaciaisPadrões Atuais e Futuros para Infraestrutura de Dados Espaciais
Padrões Atuais e Futuros para Infraestrutura de Dados Espaciais
 
BIG DATA
BIG DATABIG DATA
BIG DATA
 
ICPD_2011_2012
ICPD_2011_2012ICPD_2011_2012
ICPD_2011_2012
 
Mining software repositories
Mining software repositoriesMining software repositories
Mining software repositories
 
DataViva: Visualizando a economia de Minas Geras e do Brasil
DataViva: Visualizando a economia de Minas Geras e do BrasilDataViva: Visualizando a economia de Minas Geras e do Brasil
DataViva: Visualizando a economia de Minas Geras e do Brasil
 
Apresentacao ForumRNP 2015 - Daniela Brauner
Apresentacao ForumRNP 2015 - Daniela BraunerApresentacao ForumRNP 2015 - Daniela Brauner
Apresentacao ForumRNP 2015 - Daniela Brauner
 
Big data - Uma visão geral da coisa...
Big data - Uma visão geral da coisa...Big data - Uma visão geral da coisa...
Big data - Uma visão geral da coisa...
 
AI & Big Data - Personalização da Jornada - PicPay - TDC
AI & Big Data - Personalização da Jornada - PicPay - TDCAI & Big Data - Personalização da Jornada - PicPay - TDC
AI & Big Data - Personalização da Jornada - PicPay - TDC
 

Plus de Fabíola Fernandes

E agora? Qual banco de dados devo usar?
E agora? Qual banco de dados devo usar?E agora? Qual banco de dados devo usar?
E agora? Qual banco de dados devo usar?Fabíola Fernandes
 
Bigdata e NoSQL: buzzwords da teoria à prática
Bigdata e NoSQL: buzzwords da teoria à práticaBigdata e NoSQL: buzzwords da teoria à prática
Bigdata e NoSQL: buzzwords da teoria à práticaFabíola Fernandes
 
Logs, Monitoramento e Estatísticas - Uma Abordagem sobre Ferramentas
Logs, Monitoramento e Estatísticas - Uma Abordagem sobre FerramentasLogs, Monitoramento e Estatísticas - Uma Abordagem sobre Ferramentas
Logs, Monitoramento e Estatísticas - Uma Abordagem sobre FerramentasFabíola Fernandes
 
E agora: que tipo de Banco de Dados devo usar?
E agora: que tipo de Banco de Dados devo usar?E agora: que tipo de Banco de Dados devo usar?
E agora: que tipo de Banco de Dados devo usar?Fabíola Fernandes
 
WSO2Con - Integrating Telecom Big Data: Challenges and Lessons Learned
WSO2Con - Integrating Telecom Big Data: Challenges and Lessons LearnedWSO2Con - Integrating Telecom Big Data: Challenges and Lessons Learned
WSO2Con - Integrating Telecom Big Data: Challenges and Lessons LearnedFabíola Fernandes
 

Plus de Fabíola Fernandes (6)

E agora? Qual banco de dados devo usar?
E agora? Qual banco de dados devo usar?E agora? Qual banco de dados devo usar?
E agora? Qual banco de dados devo usar?
 
NoSQL e Novas Tecnologias
NoSQL e Novas TecnologiasNoSQL e Novas Tecnologias
NoSQL e Novas Tecnologias
 
Bigdata e NoSQL: buzzwords da teoria à prática
Bigdata e NoSQL: buzzwords da teoria à práticaBigdata e NoSQL: buzzwords da teoria à prática
Bigdata e NoSQL: buzzwords da teoria à prática
 
Logs, Monitoramento e Estatísticas - Uma Abordagem sobre Ferramentas
Logs, Monitoramento e Estatísticas - Uma Abordagem sobre FerramentasLogs, Monitoramento e Estatísticas - Uma Abordagem sobre Ferramentas
Logs, Monitoramento e Estatísticas - Uma Abordagem sobre Ferramentas
 
E agora: que tipo de Banco de Dados devo usar?
E agora: que tipo de Banco de Dados devo usar?E agora: que tipo de Banco de Dados devo usar?
E agora: que tipo de Banco de Dados devo usar?
 
WSO2Con - Integrating Telecom Big Data: Challenges and Lessons Learned
WSO2Con - Integrating Telecom Big Data: Challenges and Lessons LearnedWSO2Con - Integrating Telecom Big Data: Challenges and Lessons Learned
WSO2Con - Integrating Telecom Big Data: Challenges and Lessons Learned
 

Mineração de Dados com Apache Mahout