Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.

Mineração de dados na prática com RapidMiner e Weka

765 vues

Publié le

Nesta apresentação mostro de forma prática a aplicação de modelos de regressão para mineração de dados e extração do conhecimento

Publié dans : Technologie

Mineração de dados na prática com RapidMiner e Weka

  1. 1. Mineração de dados com RapidMiner + WEKA Regressão Linear - Teoria e Prática PROF. JOÃO GABRIEL LIMA @JGABRIEL_LIMA LINKEDIN.COM/IN/JOAOGABRIELLIMA Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  2. 2. Prof. João Gabriel Lima • Engenheiro da Computação, especialista em Software e Hardware; • Doutorando em Computação Aplicada; • Pesquisador em Mineração de dado e Inteligência Computacional; • IT Hacker
  3. 3. O que é mineração de dados?
  4. 4. Mineração de dados A transformação de grandes quantidades de dados em padrões e regras: Direcionada e Não Direcionada Direcionada: tentamos prever um ponto de dados em particular ◦ Ex.: preço de venda de uma casa baseado em informações sobre outras casas à venda no bairro Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  5. 5. Mineração de dados Não direcionada: ◦ Tentamos criar grupos de dados, ou achar padrões em dados existentes Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  6. 6. Qual o objetivo?
  7. 7. Mineração de Dados O objetivo da mineração de dados é criar um modelo que possa melhorar o modo pelo qual interpretamos nossos dados existentes e futuros. Como há muitas técnicas de mineração de dados, o passo principal para criar um bom modelo é determinar que tipo de técnica deve ser usada. Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  8. 8. Iniciando os trabalhos…
  9. 9. Modelos de Regressão GUIA PRÁTICO E PASSO A PASSO Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  10. 10. Regressão O modelo de regressão é então usado para prever o resultado de uma variável dependente desconhecida, dados os valores das variáveis independentes. Técnica mais fácil de usar, mas provavelmente também é a menos poderosa. Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  11. 11. Regressão Ex.: Calcular o preço de uma casa: O preço da casa (a variável dependente) é o resultado de muitas variáveis independentes — a metragem quadrada da casa, o tamanho do lote, se há granito na cozinha, se os banheiros foram reformados, etc O modelo é criado com base em outras casas comparáveis no bairro e no preço pelo qual elas foram vendidas (o modelo), e então colocando os valores de sua própria casa neste modelo para produzir o preço esperado. Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  12. 12. Regressão Ex.: Estes são números reais de casas que estão à venda no bairro, e vamos tentar achar o valor da casa que se quer vender: Valores da casa para o modelo de regressão Tamanho Tamanho do lote Quartos Granito Banheiro reformado Preço de venda 3529 9191 6 0 0 $205,000 3247 10061 5 1 1 $224,900 4032 10150 5 0 1 $197,900 2397 14156 4 1 0 $189,900 2200 9600 4 0 1 $195,000 3536 19994 6 1 1 $325,000 2983 9365 5 0 1 $230,000 3198 9669 5 1 1 ?????
  13. 13. Waikato Environment for Knowledge Analysis (WEKA)
  14. 14. Waikato Environment for Knowledge Analysis (WEKA) Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  15. 15. Waikato Environment for Knowledge Analysis (WEKA) O WEKA é um produto da Universidade de Waikato (Nova Zelândia) GNU General Public License (GPL) Linguagem Java™ API para incorporar o WEKA em aplicações próprias Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  16. 16. Carregando dados no WEKA Formato de Arquivo de Atributo-Relação (ARFF) No arquivo, definimos cada coluna e o que cada coluna contém: @relation <relation-name> @attribute <attribute-name> <datatype> * numeric, nominal, string, date [<date-format>] @data <data 1>, <data 2>, <data 3>, <data 4>, <data 5> Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  17. 17. Carregando dados no WEKA @relation LCCvsLCSH @attribute LCC string @attribute LCSH string @ attribute timestamp DATE "yyyy-MM-dd HH:mm:ss" @data AG5, 'Encyclopedias and dictionaries.;Twentieth century.' , "2001-04-03 12:12:12" AS262, 'Science -- Soviet Union -- History.' , "2001-04-03 12:12:12" AE5, 'Encyclopedias and dictionaries.' , "2001-04-03 12:12:12" AS281, 'Astronomy, Assyro-Babylonian.;Moon -- Phases.' , "2001-04-03 12:12:12" AS281, 'Astronomy, Assyro-Babylonian.;Moon -- Tables.’, "2001-04-03 12:12:12" Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  18. 18. Conhecendo o Ambiente de Trabalho WEKA WORKBENCH Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  19. 19. Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  20. 20. Abrindo nosso arquivo arff no WEKA
  21. 21. Criando o modelo de regressão com o WEKA Na guia Classify: 1 - Clique no botão Choose, e então expanda a ramificação functions. 2 - Selecione a folha LinearRegression. Obs: No caso do modelo de regressão, estamos limitados a uma coluna de NUMERIC ou de DATE Nosso arquivo de dados… Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  22. 22. Criando o modelo de regressão com o WEKA – Opções Supplied test set: onde é possível fornecer um conjunto diferente de dados para construir o modelo; Cross-validation: que deixa o WEKA construir um modelo baseado em subconjuntos dos dados fornecidos e então calcular sua média para criar um modelo final; Percentage split: onde o WEKA toma um subconjunto percentual dos dados fornecidos para construir um modelo final. Use training set: Isto diz ao WEKA que para construir nosso modelo desejado, podemos simplesmente usar o conjunto de dados que fornecemos em nosso arquivo ARFF Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  23. 23. Criando o modelo de regressão com o WEKA – Opções O último passo para criar nosso modelo é escolher a variável dependente (a coluna que estamos tentando prever). Sabemos que este deve ser o preço de venda, pois é isso que estamos tentando determinar. Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  24. 24. Criando o modelo de regressão com o WEKA Analisando o Resultado Mineração de Dados - Prof. Msc. João Gabriel Lima
  25. 25. Mas… é esse o resultado?
  26. 26. Interpretando o modelo de regressão Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  27. 27. Resultado da regressão preco = (-26,6882 * tamanhoCasa) + (7,0551 * tamanhoLote) + (43.166,0767 * quartos) + (42.292,0901 * banheiro) - 21.661,1208 Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  28. 28. Calculando o Valor da casa usando o modelo de regressão preco = (-26,6882 * 3198) + (7,0551 * 9669) + (43.166,0767 * 5) + (42.292,0901 * 1) -21.661,1208 preco = $ 219,328 Tamanho Tamanho do lote Quartos Granito Banheiro reformado Preço de venda 3198 9669 5 1 1 ????? Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  29. 29. Ahhhh!
  30. 30. Interpretando os padrões e conclusões do modelo ◦ O granito não tem importância ◦ O WEKA só usa as colunas que contribuem estatisticamente para a precisão do modelo (medido em R ao quadrado). ◦ Ele descarta e ignora as colunas que não ajudam a criar um bom modelo. ◦ Assim, este modelo de regressão está nos dizendo que o granito da cozinha não afeta o valor da casa. Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  31. 31. Interpretando os padrões e conclusões do modelo ◦ Os banheiros são importantes ◦ Como usamos um simples valor 0 ou 1 para um banheiro reformado, podemos usar o coeficiente do modelo de regressão para determinar o valor que um banheiro reformado representa para o valor da casa. ◦ O modelo nos diz para acrescentarmos $42.292 ao valor da casa. Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  32. 32. Que massa!
  33. 33. Interpretando os padrões e conclusões do modelo ◦ Casas maiores reduzem o valor ◦ Não faz sentido? ◦ O modelo pode estar sendo afetado por uma variável que não é indepenendente. ◦ “Tamanho”? Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  34. 34. Vamos exercitar! Agora aplique seus conhecimentos em um novo desafio… Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  35. 35. Exercício 1 ◦ Na aba Preprocess do WEKA é possível remover colunas do conjunto de dados. ◦ Remova a coluna TamanhoCasa e crie outro modelo. Como isso afeta o preço da casa? ◦ Este novo modelo faz mais sentido? ◦ Qual o novo valor da casa com esta alteração nos dados de entrada? Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
  36. 36. Exercício 2 A partir da base disponível em: https://goo.gl/GfFX8l Aplique os conhecimentos adiquiridos nesta aula, destacando as variáveis independentes que tem influência sobre o resultado e a função que expressa o modelo de regressão para a base de dados analisada.
  37. 37. Créditos Abaixo estão listadas as principais fontes utilizadas para a concepção desta apresentação: http://support.minitab.com/pt-br/minitab/17/topic-library/modeling-statistics/regression-and- correlation/goodness-of-fit-statistics/r-squared/ https://www.ibm.com/developerworks/br/opensource/library/os-weka1/ https://mineracaodedados.wordpress.com/ http://hunch.net/?p=3692542 http://en.wikipedia.org/wiki/Regression_analysis http://weka.wikispaces.com/ARFF+%28book+version%29 http://www.ibm.com/developerworks/forums/dw_forum.jsp?forum=375&cat=5 http://machinelearningmastery.com/regression-machine-learning-tutorial-weka/
  38. 38. Mineração de dados com RapidMiner + WEKA Regressão Linear - Teoria e Prática PROF. JOÃO GABRIEL LIMA @JGABRIEL_LIMA LINKEDIN.COM/IN/JOAOGABRIELLIMA Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima

×