SlideShare une entreprise Scribd logo
1  sur  28
Data Mining & Predictive
Analysis
Prof.Thiago Marques
Minha linha do tempo
2014
2015
2016
2017
2018
2019
 Analista censitário IBGE
 Palestras (Unicamp,T de beer
Student, Big Data Brasil Day,
Big Data brazil Experiente,
Casnav, Nvidia Conference,
Eneat, LABtalks Globo, Semest
UFF)
 Professor (Pós Bi e Big data -
Unisuam)
 Professor (Pós em ciência de
dados da Senac RJ)
 Estathifisco vira Estatidados
 Comunidade de Estatística do
Prof. Thiago Marques
 Mini curso Estatística e R
(SPOLM)
 Disciplina isolada - Mestrado
de Engenharia de Transportes
no IME(Instituto Militar de
Engenharia) – Métodos
computacionais para a
tomada de decisão.
 Grade de Estudos
DS/Concursos
(6horas/dia)
 Consultorias e Aulas
particulares
 Processo seletivo
EY(Antiga Ernest
young)
 Analista censitário
IBGE
2020
 Professor (MBA
em Ciência de
dados – Farias
Brito - Fortaleza)
 Professor (Pós em
ciência de dados
da Unifor Fortaleza)
 Professor
Palestrante ((MBA
Ciência de dados
PUC RIO)
 Professor (Pós em
Data Science e
Analytics USP)
 Casa da Pesquisa
Operacional)
 Estatidados
em artigos
2021
 Professor (MBA
Executivo em
Ciência de dados –
TREVISAN
 Professor (Pós em
B.I e ciência de
dados da ICEV)
 Professor
convidado ( MBA
em BI, Marketing
Digital e Estratégia
Data Driven da
PUC RS)
 Coordenador MBA
Data Science and
Statistics (Business
School Brasil)
Crisp-DM na Prática
Problema
Entendimento
Preparação
Modelagem
Avaliação
Implementação
O que eu quero resolver?
Qual o tamanho deste problema?
Onde estão as informações?
Quais as análises e hipóteses testar?
Como tratar os dados?
Qual o algoritmo utilizar?
Qual o resultado obtido?
Como otimizar o modelo?
Estatística Ciência da Computação Negócios
Tipos de aprendizado
Cases de Machine Learning - Sucessos
 Na Shell, a manutenção preditiva reduz custos e aumenta a produtividade o
tempo ocioso das máquinas custa milhões de dólares por dia, a Shell investiu em
análise de dados para reduzir os custos de manutenção e aumentar a
produtividade, modelos preditivos para prever quando qualquer uma das mais de
3 mil peças de perfuratrizes de petróleo falhariam.
 A Danone cruza informações de rotas, tempo de entrega e prazo de validade
usando algoritmos de otimização para entrega no prazo de validade.
 A Starbucks se utiliza de técnicas de Big Data para guiar o processo de abertura de
suas cafeterias, enfrentando a onda do e-commerce e, principalmente,
aperfeiçoando a relação entre suas lojas, sua marca e seu público-alvo.
Cases de Machine Learning - Insucessos
 Algoritmo de saúde falhou ao sinalizar pacientes negros: Em 2019, um estudo
publicado na Science revelou que um algoritmo de previsão de saúde, usado por
hospitais e seguradoras em todos os Estados Unidos para identificar pacientes
que precisam de programas de "gerenciamento de cuidados de alto risco", tinha
muito menos probabilidade de destacar pacientes negros.
 Conjunto de dados treinou o chatbot da Microsoft para enviar tweets racistas: Em
março de 2016, a Microsoft descobriu que usar as interações do Twitter como
dados de treinamento para algoritmos de machine learning pode ter resultados
desanimadores. A ideia era que o chatbot assumisse a personalidade de uma
adolescente e interagisse com os indivíduos via Twitter usando uma combinação
de machine learning e processamento de linguagem natural.
Cases de Machine Learning - Insucessos
 Analytics da Target violou privacidade: Em 2012, um projeto de analytics do titã
do varejo Target mostrou o quanto as empresas podem aprender sobre os
clientes a partir de seus dados. De acordo com o New York Times, em 2002 o
departamento de marketing da Target começou a se perguntar como poderia
determinar se as clientes estavam grávidas. Essa linha de investigação levou a um
projeto machine learning que levaria o varejista a revelar inadvertidamente à
família de uma adolescente que ela estava grávida (Reza a lenda).
Case de Regressão (Aprendizagem
Supervisionada) - Imersão
 Regressão Linear - Machine Learning para precificação de imóveis no município
do RJ: Uma aplicação de Regressão Linear
 Motivação: O município do RJ Vinha sofrendo grandes transformações devido ás
obras de acessibilidade de apoio a 2 grandes eventos (Copa do mundo de 2014 e
olimpíadas em 2016.)
 Principais transformações na cidade: Criação de eixos rodoviários como:
Transcarioca; Transolímpica e Transoeste, projeto porto maravilha e instalação das
Unidades de Polícia Pacificadoras (UPP).
Cases de Regressão (Aprendizagem
Supervisionada)
 Bairros com maiores valorizações dos imóveis no Rio de Janeiro.
Região Valor m² em Jan/10 Valor m² em Set/12 Valorização
Leblon 12.726,00 39.391,40 210%
Ipanema 10.708,90 32.653,40 205%
Gávea 10.817,50 32.539,20 201%
Tijuca 2.586,00 7.611,70 194%
Lagoa 12.645,60 36.088,40 185%
Vila Isabel 2.258,30 5.335,00 136%
Laranjeiras 5.439,24 11.822,84 117%
Cosme Velho 5.739,40 12.420,00 116%
Fonte: Engenharia,J.F. (2013)
Cases de Regressão (Aprendizagem
Supervisionada)
 Objetivo geral
 Estimar o preço de imóveis no município do Rio de Janeiro para os anos de 2010 e
2011.
 Unidade de análise: áreas de planejamento do município do Rio de Janeiro
 Objetivos específicos:
 Selecionar as características físicas (área, padrão construtivo, número de vagas na
garagem, etc) e variáveis que caracterizem a unidade de análise, que mais dão
valor aos imóveis residenciais nos anos de 2010 e 2011.
 Elaborar o modelo para estimação do preço e validá-lo verificando se está dentro
das hipóteses de modelagem estatística.
Cases de Regressão (Aprendizagem
Supervisionada)
 Modelos de Regressão linear
 O preço de venda das unidades residenciais é a variável dependente sendo
explicada pelos atributos associados aos mesmos, estipulando-se o valor de
mercado das características de um bem.
 Equações de regressão múltipla, apresentando a seguinte forma geral em forma
de matriz:
𝒀 = 𝑿𝜷 + 𝜺
Onde:
𝒀𝒏𝒙𝟏 = 𝑽𝒆𝒕𝒐𝒓 𝒅𝒂 𝒗𝒂𝒓𝒊á𝒗𝒆𝒍 𝒅𝒆𝒑𝒆𝒏𝒅𝒆𝒏𝒕𝒆;
𝑿𝒏𝒙𝒑 = 𝑴𝒂𝒕𝒓𝒊𝒛 𝒅𝒆 𝒗𝒂𝒓𝒊á𝒗𝒆𝒊𝒔 𝒊𝒏𝒅𝒆𝒑𝒆𝒏𝒅𝒆𝒏𝒕𝒆𝒔;
𝜷𝒑𝒙𝟏 = 𝑽𝒆𝒕𝒐𝒓 𝒅𝒆 𝒑𝒂𝒓â𝒎𝒆𝒕𝒓𝒐𝒔;
𝜺𝒏𝒙𝟏 = 𝑽𝒆𝒕𝒐𝒓 𝒅𝒆 𝒕𝒆𝒓𝒎𝒐𝒔 𝒅𝒆 𝒆𝒓𝒓𝒐𝒔 𝒂𝒍𝒆𝒂𝒕ó𝒓𝒊𝒐𝒔;
Cases de Regressão (Aprendizagem
Supervisionada)
 A base de dados consiste em uma pesquisa realizada pelas imobiliárias do Rio de
Janeiro para a Caixa Econômica Federal do Rio de Janeiro
• Foram pesquisados imóveis vendidos para os anos de 2004 a 2012
• São utilizados os dados referentes ao período de 2010 a 2011, totalizando
2.720 imóveis vendidos.
 Foram utilizadas também, variáveis do banco de dados do armazém de dados da
prefeitura (IPP - Instituto Pereira Passos)
 Atualização dos preços dos imóveis vendidos através do IGP-M da fundação Getúlio
Vargas a critério de comparabilidade dos preços em 2010 e 2011
Cases de Regressão (Aprendizagem
Supervisionada)
 Preço médio do imóvel por quantidade de garagens, no ano de 2010.
Cases de Regressão (Aprendizagem
Supervisionada)
 Preço médio do imóvel por quantidade de banheiros, no ano de 2010.
Cases de Regressão (Aprendizagem
Supervisionada)
 Estatísticas Descritivas da amostra dos dados de apartamentos vendidos nos anos de
2010 e 2011 por área de planejamento.
Valor total (R$)
Áreas de
Planejamento(AP)
Quantid
ade de
Imóveis
Média Desvio
Padrão
CV(%
)
Mínim
o
Máximo
AP1(Centro e Centro
Histórico)
103 144.921 78.579 54.2 37.599 436.084
AP2(Zona Sul e
Sudoeste)
611 363.436 280.492 77.2 48.016 2.892.653
AP3(Zona Norte) 966 117.431 61.384 52.3 25.772 473.814
AP4(Barra da Tijuca e
Jacarepaguá)
826 241.810 184.670 76.4 23.261 2.246.612
AP5(Zona Oeste) 214 80.341 34.693 43.2 30.468 212.493
Cases de Regressão (Aprendizagem
Supervisionada)
Estatísticas Descritivas da amostra dos dados de apartamentos vendidos no ano
de 2010
Estatísticas
/Variáveis
Valor
Total(R$)
Área
Privativa(m²
)
Idade
aparente
do
Imóvel
Vaga de
Garagem
Quartos Banheiros
N. Válidos 1.416 1416 1.416 1139 1416 1411
N. Faltantes 0 0 0 277 0 5
Moda 83.944,4 50 30 1 2 1
Média 194.998 75 26 1 2 1
Q2 ou Mediana 132.132,4 67 26 1 2 1
Desvio Padrão 166.540,2 35,8 17 0,62 0,63 0,64
Cv 85% 47,8% 65% 62% 31,5% 64%
Mínimo 27.305,7 16 0 0 1 1
Máximo 1.523.411,6 375 73 4 6 6
Q1 83944,4 53 11 1 2 1
Q3 254.330,6 86 38 1 2 2
Cases de Regressão (Aprendizagem
Supervisionada)
 Distribuição dos preços de imóveis vendidos nos anos de 2010 e 2011
Cases de Regressão (Aprendizagem
Supervisionada)
 Distribuição do log dos preços de imóveis vendidos nos anos de 2010 e 2011
Cases de Regressão (Aprendizagem
Supervisionada)
 Reta Ajustada
Cases de Regressão (Aprendizagem
Supervisionada)
 O trabalho utilizou a abordagem de regressão linear para compreensão dos preços
dos imóveis residenciais no município do Rio de Janeiro nos anos de 2010 e 2011, de
forma a identificar quais são os elementos mais relevantes para a determinação do
preço neste mercado.
 O modelo encontrado apresentou todas as variáveis significativas aos 3 níveis usuais
de significância (1%,5%e 10%), apresentando um R²=0,87,com R² Ajustado próximo
do R², o que indica que o modelo está bem especificado.
 O modelo apresentou todos os coeficientes positivos com exceção da variável que
indica a área de planejamento 5 (Zona Oeste), indicando que os imóveis quando são
pertencentes a mesma tem um decréscimo de 19,5% na estimação do preço o que é
explicado pelo fato de possuir a menor média de preços por área de planejamento,
é composta por Realengo, Bangu e Santa cruz.
Cases de Regressão (Aprendizagem
Supervisionada)
 Variáveis que mais explicam o preço de um imóvel residencial:
• IDS(Índice de Desenvolvimento social)
• Vagas – Número de vagas de garagem da unidade residencial, de qualquer natureza
• Quartos – Número de quartos da unidade residencial
• Banheiros– Número de banheiros da unidade residencial
• Valor Unitário – Valor unitário do imóvel em R$/m²
• Quantidade de domicílios com Sanitário e Esgotamento Sanitário por área de
planejamento.
• Área de Planejamento onde é localizado o Imóvel.
Meme Analytics
Vamos para o Hand´s on!
Timeline do R: 45 Anos de Linguagem R
Obrigado!

Contenu connexe

Similaire à Data Mining & Predictive Analysis - PPGADM UFG - Prof. Thiago Marques

CV-Grace-DataAnalytics-UCL
CV-Grace-DataAnalytics-UCLCV-Grace-DataAnalytics-UCL
CV-Grace-DataAnalytics-UCL
Han Yang
 
Stock price prediction using stock eod of day price
Stock price prediction using stock eod of day priceStock price prediction using stock eod of day price
Stock price prediction using stock eod of day price
Ekaantik Software Solutions
 

Similaire à Data Mining & Predictive Analysis - PPGADM UFG - Prof. Thiago Marques (20)

CV_Kamalesh
CV_KamaleshCV_Kamalesh
CV_Kamalesh
 
Report 190804110930
Report 190804110930Report 190804110930
Report 190804110930
 
Predicting Bank Customer Churn Using Classification
Predicting Bank Customer Churn Using ClassificationPredicting Bank Customer Churn Using Classification
Predicting Bank Customer Churn Using Classification
 
CARTO en 5 Pasos: del Dato a la Toma de Decisiones [CARTO]
CARTO en 5 Pasos: del Dato a la Toma de Decisiones [CARTO]CARTO en 5 Pasos: del Dato a la Toma de Decisiones [CARTO]
CARTO en 5 Pasos: del Dato a la Toma de Decisiones [CARTO]
 
Dmml report final
Dmml report finalDmml report final
Dmml report final
 
AI Works Lab - Property Pricing.pdf
AI Works Lab - Property Pricing.pdfAI Works Lab - Property Pricing.pdf
AI Works Lab - Property Pricing.pdf
 
JUN ZHAI_CV
JUN ZHAI_CVJUN ZHAI_CV
JUN ZHAI_CV
 
Maximizing Benefits via a Scoring Framework for Location-Based Services
Maximizing Benefits via a Scoring Framework for Location-Based ServicesMaximizing Benefits via a Scoring Framework for Location-Based Services
Maximizing Benefits via a Scoring Framework for Location-Based Services
 
Labeling Foot Traffic in Dense Locations
Labeling Foot Traffic in Dense LocationsLabeling Foot Traffic in Dense Locations
Labeling Foot Traffic in Dense Locations
 
Amanda Ran Yang_Resume
Amanda Ran Yang_ResumeAmanda Ran Yang_Resume
Amanda Ran Yang_Resume
 
CV-Grace-DataAnalytics-UCL
CV-Grace-DataAnalytics-UCLCV-Grace-DataAnalytics-UCL
CV-Grace-DataAnalytics-UCL
 
sheethal_kamath
sheethal_kamathsheethal_kamath
sheethal_kamath
 
How to Use Spatial Data Science in your Site Planning Process? [CARTOframes]
How to Use Spatial Data Science in your Site Planning Process? [CARTOframes] How to Use Spatial Data Science in your Site Planning Process? [CARTOframes]
How to Use Spatial Data Science in your Site Planning Process? [CARTOframes]
 
2019_7816154.pdf
2019_7816154.pdf2019_7816154.pdf
2019_7816154.pdf
 
Emerging City Report - Santiago (2014)
Emerging City Report - Santiago (2014) Emerging City Report - Santiago (2014)
Emerging City Report - Santiago (2014)
 
Alex Korbonits, "AUC at what costs?" Seattle DAML June 2016
Alex Korbonits, "AUC at what costs?" Seattle DAML June 2016Alex Korbonits, "AUC at what costs?" Seattle DAML June 2016
Alex Korbonits, "AUC at what costs?" Seattle DAML June 2016
 
Resume subrata kumar satpati
Resume  subrata kumar satpatiResume  subrata kumar satpati
Resume subrata kumar satpati
 
Emerging City Report - San Jose (2014)
Emerging City Report - San Jose (2014)Emerging City Report - San Jose (2014)
Emerging City Report - San Jose (2014)
 
Stock price prediction using stock eod of day price
Stock price prediction using stock eod of day priceStock price prediction using stock eod of day price
Stock price prediction using stock eod of day price
 
SHAHBAZ_TECHNICAL_SEMINAR.docx
SHAHBAZ_TECHNICAL_SEMINAR.docxSHAHBAZ_TECHNICAL_SEMINAR.docx
SHAHBAZ_TECHNICAL_SEMINAR.docx
 

Dernier

Chintamani Call Girls: 🍓 7737669865 🍓 High Profile Model Escorts | Bangalore ...
Chintamani Call Girls: 🍓 7737669865 🍓 High Profile Model Escorts | Bangalore ...Chintamani Call Girls: 🍓 7737669865 🍓 High Profile Model Escorts | Bangalore ...
Chintamani Call Girls: 🍓 7737669865 🍓 High Profile Model Escorts | Bangalore ...
amitlee9823
 
Delhi 99530 vip 56974 Genuine Escort Service Call Girls in Kishangarh
Delhi 99530 vip 56974 Genuine Escort Service Call Girls in  KishangarhDelhi 99530 vip 56974 Genuine Escort Service Call Girls in  Kishangarh
Delhi 99530 vip 56974 Genuine Escort Service Call Girls in Kishangarh
9953056974 Low Rate Call Girls In Saket, Delhi NCR
 
Call Girls Hsr Layout Just Call 👗 7737669865 👗 Top Class Call Girl Service Ba...
Call Girls Hsr Layout Just Call 👗 7737669865 👗 Top Class Call Girl Service Ba...Call Girls Hsr Layout Just Call 👗 7737669865 👗 Top Class Call Girl Service Ba...
Call Girls Hsr Layout Just Call 👗 7737669865 👗 Top Class Call Girl Service Ba...
amitlee9823
 
Log Analysis using OSSEC sasoasasasas.pptx
Log Analysis using OSSEC sasoasasasas.pptxLog Analysis using OSSEC sasoasasasas.pptx
Log Analysis using OSSEC sasoasasasas.pptx
JohnnyPlasten
 
Call Girls Indiranagar Just Call 👗 7737669865 👗 Top Class Call Girl Service B...
Call Girls Indiranagar Just Call 👗 7737669865 👗 Top Class Call Girl Service B...Call Girls Indiranagar Just Call 👗 7737669865 👗 Top Class Call Girl Service B...
Call Girls Indiranagar Just Call 👗 7737669865 👗 Top Class Call Girl Service B...
amitlee9823
 
Vip Model Call Girls (Delhi) Karol Bagh 9711199171✔️Body to body massage wit...
Vip Model  Call Girls (Delhi) Karol Bagh 9711199171✔️Body to body massage wit...Vip Model  Call Girls (Delhi) Karol Bagh 9711199171✔️Body to body massage wit...
Vip Model Call Girls (Delhi) Karol Bagh 9711199171✔️Body to body massage wit...
shivangimorya083
 
Schema on read is obsolete. Welcome metaprogramming..pdf
Schema on read is obsolete. Welcome metaprogramming..pdfSchema on read is obsolete. Welcome metaprogramming..pdf
Schema on read is obsolete. Welcome metaprogramming..pdf
Lars Albertsson
 

Dernier (20)

Ravak dropshipping via API with DroFx.pptx
Ravak dropshipping via API with DroFx.pptxRavak dropshipping via API with DroFx.pptx
Ravak dropshipping via API with DroFx.pptx
 
Best VIP Call Girls Noida Sector 39 Call Me: 8448380779
Best VIP Call Girls Noida Sector 39 Call Me: 8448380779Best VIP Call Girls Noida Sector 39 Call Me: 8448380779
Best VIP Call Girls Noida Sector 39 Call Me: 8448380779
 
CebaBaby dropshipping via API with DroFX.pptx
CebaBaby dropshipping via API with DroFX.pptxCebaBaby dropshipping via API with DroFX.pptx
CebaBaby dropshipping via API with DroFX.pptx
 
BDSM⚡Call Girls in Mandawali Delhi >༒8448380779 Escort Service
BDSM⚡Call Girls in Mandawali Delhi >༒8448380779 Escort ServiceBDSM⚡Call Girls in Mandawali Delhi >༒8448380779 Escort Service
BDSM⚡Call Girls in Mandawali Delhi >༒8448380779 Escort Service
 
BabyOno dropshipping via API with DroFx.pptx
BabyOno dropshipping via API with DroFx.pptxBabyOno dropshipping via API with DroFx.pptx
BabyOno dropshipping via API with DroFx.pptx
 
Chintamani Call Girls: 🍓 7737669865 🍓 High Profile Model Escorts | Bangalore ...
Chintamani Call Girls: 🍓 7737669865 🍓 High Profile Model Escorts | Bangalore ...Chintamani Call Girls: 🍓 7737669865 🍓 High Profile Model Escorts | Bangalore ...
Chintamani Call Girls: 🍓 7737669865 🍓 High Profile Model Escorts | Bangalore ...
 
Zuja dropshipping via API with DroFx.pptx
Zuja dropshipping via API with DroFx.pptxZuja dropshipping via API with DroFx.pptx
Zuja dropshipping via API with DroFx.pptx
 
Delhi 99530 vip 56974 Genuine Escort Service Call Girls in Kishangarh
Delhi 99530 vip 56974 Genuine Escort Service Call Girls in  KishangarhDelhi 99530 vip 56974 Genuine Escort Service Call Girls in  Kishangarh
Delhi 99530 vip 56974 Genuine Escort Service Call Girls in Kishangarh
 
Generative AI on Enterprise Cloud with NiFi and Milvus
Generative AI on Enterprise Cloud with NiFi and MilvusGenerative AI on Enterprise Cloud with NiFi and Milvus
Generative AI on Enterprise Cloud with NiFi and Milvus
 
Call Girls Hsr Layout Just Call 👗 7737669865 👗 Top Class Call Girl Service Ba...
Call Girls Hsr Layout Just Call 👗 7737669865 👗 Top Class Call Girl Service Ba...Call Girls Hsr Layout Just Call 👗 7737669865 👗 Top Class Call Girl Service Ba...
Call Girls Hsr Layout Just Call 👗 7737669865 👗 Top Class Call Girl Service Ba...
 
Accredited-Transport-Cooperatives-Jan-2021-Web.pdf
Accredited-Transport-Cooperatives-Jan-2021-Web.pdfAccredited-Transport-Cooperatives-Jan-2021-Web.pdf
Accredited-Transport-Cooperatives-Jan-2021-Web.pdf
 
Log Analysis using OSSEC sasoasasasas.pptx
Log Analysis using OSSEC sasoasasasas.pptxLog Analysis using OSSEC sasoasasasas.pptx
Log Analysis using OSSEC sasoasasasas.pptx
 
Digital Advertising Lecture for Advanced Digital & Social Media Strategy at U...
Digital Advertising Lecture for Advanced Digital & Social Media Strategy at U...Digital Advertising Lecture for Advanced Digital & Social Media Strategy at U...
Digital Advertising Lecture for Advanced Digital & Social Media Strategy at U...
 
Call Girls Indiranagar Just Call 👗 7737669865 👗 Top Class Call Girl Service B...
Call Girls Indiranagar Just Call 👗 7737669865 👗 Top Class Call Girl Service B...Call Girls Indiranagar Just Call 👗 7737669865 👗 Top Class Call Girl Service B...
Call Girls Indiranagar Just Call 👗 7737669865 👗 Top Class Call Girl Service B...
 
Introduction-to-Machine-Learning (1).pptx
Introduction-to-Machine-Learning (1).pptxIntroduction-to-Machine-Learning (1).pptx
Introduction-to-Machine-Learning (1).pptx
 
BPAC WITH UFSBI GENERAL PRESENTATION 18_05_2017-1.pptx
BPAC WITH UFSBI GENERAL PRESENTATION 18_05_2017-1.pptxBPAC WITH UFSBI GENERAL PRESENTATION 18_05_2017-1.pptx
BPAC WITH UFSBI GENERAL PRESENTATION 18_05_2017-1.pptx
 
Vip Model Call Girls (Delhi) Karol Bagh 9711199171✔️Body to body massage wit...
Vip Model  Call Girls (Delhi) Karol Bagh 9711199171✔️Body to body massage wit...Vip Model  Call Girls (Delhi) Karol Bagh 9711199171✔️Body to body massage wit...
Vip Model Call Girls (Delhi) Karol Bagh 9711199171✔️Body to body massage wit...
 
BigBuy dropshipping via API with DroFx.pptx
BigBuy dropshipping via API with DroFx.pptxBigBuy dropshipping via API with DroFx.pptx
BigBuy dropshipping via API with DroFx.pptx
 
Schema on read is obsolete. Welcome metaprogramming..pdf
Schema on read is obsolete. Welcome metaprogramming..pdfSchema on read is obsolete. Welcome metaprogramming..pdf
Schema on read is obsolete. Welcome metaprogramming..pdf
 
Best VIP Call Girls Noida Sector 22 Call Me: 8448380779
Best VIP Call Girls Noida Sector 22 Call Me: 8448380779Best VIP Call Girls Noida Sector 22 Call Me: 8448380779
Best VIP Call Girls Noida Sector 22 Call Me: 8448380779
 

Data Mining & Predictive Analysis - PPGADM UFG - Prof. Thiago Marques

  • 1. Data Mining & Predictive Analysis Prof.Thiago Marques
  • 2. Minha linha do tempo 2014 2015 2016 2017 2018 2019  Analista censitário IBGE  Palestras (Unicamp,T de beer Student, Big Data Brasil Day, Big Data brazil Experiente, Casnav, Nvidia Conference, Eneat, LABtalks Globo, Semest UFF)  Professor (Pós Bi e Big data - Unisuam)  Professor (Pós em ciência de dados da Senac RJ)  Estathifisco vira Estatidados  Comunidade de Estatística do Prof. Thiago Marques  Mini curso Estatística e R (SPOLM)  Disciplina isolada - Mestrado de Engenharia de Transportes no IME(Instituto Militar de Engenharia) – Métodos computacionais para a tomada de decisão.  Grade de Estudos DS/Concursos (6horas/dia)  Consultorias e Aulas particulares  Processo seletivo EY(Antiga Ernest young)  Analista censitário IBGE 2020  Professor (MBA em Ciência de dados – Farias Brito - Fortaleza)  Professor (Pós em ciência de dados da Unifor Fortaleza)  Professor Palestrante ((MBA Ciência de dados PUC RIO)  Professor (Pós em Data Science e Analytics USP)  Casa da Pesquisa Operacional)  Estatidados em artigos 2021  Professor (MBA Executivo em Ciência de dados – TREVISAN  Professor (Pós em B.I e ciência de dados da ICEV)  Professor convidado ( MBA em BI, Marketing Digital e Estratégia Data Driven da PUC RS)  Coordenador MBA Data Science and Statistics (Business School Brasil)
  • 3. Crisp-DM na Prática Problema Entendimento Preparação Modelagem Avaliação Implementação O que eu quero resolver? Qual o tamanho deste problema? Onde estão as informações? Quais as análises e hipóteses testar? Como tratar os dados? Qual o algoritmo utilizar? Qual o resultado obtido? Como otimizar o modelo? Estatística Ciência da Computação Negócios
  • 5. Cases de Machine Learning - Sucessos  Na Shell, a manutenção preditiva reduz custos e aumenta a produtividade o tempo ocioso das máquinas custa milhões de dólares por dia, a Shell investiu em análise de dados para reduzir os custos de manutenção e aumentar a produtividade, modelos preditivos para prever quando qualquer uma das mais de 3 mil peças de perfuratrizes de petróleo falhariam.  A Danone cruza informações de rotas, tempo de entrega e prazo de validade usando algoritmos de otimização para entrega no prazo de validade.  A Starbucks se utiliza de técnicas de Big Data para guiar o processo de abertura de suas cafeterias, enfrentando a onda do e-commerce e, principalmente, aperfeiçoando a relação entre suas lojas, sua marca e seu público-alvo.
  • 6. Cases de Machine Learning - Insucessos  Algoritmo de saúde falhou ao sinalizar pacientes negros: Em 2019, um estudo publicado na Science revelou que um algoritmo de previsão de saúde, usado por hospitais e seguradoras em todos os Estados Unidos para identificar pacientes que precisam de programas de "gerenciamento de cuidados de alto risco", tinha muito menos probabilidade de destacar pacientes negros.  Conjunto de dados treinou o chatbot da Microsoft para enviar tweets racistas: Em março de 2016, a Microsoft descobriu que usar as interações do Twitter como dados de treinamento para algoritmos de machine learning pode ter resultados desanimadores. A ideia era que o chatbot assumisse a personalidade de uma adolescente e interagisse com os indivíduos via Twitter usando uma combinação de machine learning e processamento de linguagem natural.
  • 7. Cases de Machine Learning - Insucessos  Analytics da Target violou privacidade: Em 2012, um projeto de analytics do titã do varejo Target mostrou o quanto as empresas podem aprender sobre os clientes a partir de seus dados. De acordo com o New York Times, em 2002 o departamento de marketing da Target começou a se perguntar como poderia determinar se as clientes estavam grávidas. Essa linha de investigação levou a um projeto machine learning que levaria o varejista a revelar inadvertidamente à família de uma adolescente que ela estava grávida (Reza a lenda).
  • 8. Case de Regressão (Aprendizagem Supervisionada) - Imersão  Regressão Linear - Machine Learning para precificação de imóveis no município do RJ: Uma aplicação de Regressão Linear  Motivação: O município do RJ Vinha sofrendo grandes transformações devido ás obras de acessibilidade de apoio a 2 grandes eventos (Copa do mundo de 2014 e olimpíadas em 2016.)  Principais transformações na cidade: Criação de eixos rodoviários como: Transcarioca; Transolímpica e Transoeste, projeto porto maravilha e instalação das Unidades de Polícia Pacificadoras (UPP).
  • 9. Cases de Regressão (Aprendizagem Supervisionada)  Bairros com maiores valorizações dos imóveis no Rio de Janeiro. Região Valor m² em Jan/10 Valor m² em Set/12 Valorização Leblon 12.726,00 39.391,40 210% Ipanema 10.708,90 32.653,40 205% Gávea 10.817,50 32.539,20 201% Tijuca 2.586,00 7.611,70 194% Lagoa 12.645,60 36.088,40 185% Vila Isabel 2.258,30 5.335,00 136% Laranjeiras 5.439,24 11.822,84 117% Cosme Velho 5.739,40 12.420,00 116% Fonte: Engenharia,J.F. (2013)
  • 10. Cases de Regressão (Aprendizagem Supervisionada)  Objetivo geral  Estimar o preço de imóveis no município do Rio de Janeiro para os anos de 2010 e 2011.  Unidade de análise: áreas de planejamento do município do Rio de Janeiro  Objetivos específicos:  Selecionar as características físicas (área, padrão construtivo, número de vagas na garagem, etc) e variáveis que caracterizem a unidade de análise, que mais dão valor aos imóveis residenciais nos anos de 2010 e 2011.  Elaborar o modelo para estimação do preço e validá-lo verificando se está dentro das hipóteses de modelagem estatística.
  • 11. Cases de Regressão (Aprendizagem Supervisionada)  Modelos de Regressão linear  O preço de venda das unidades residenciais é a variável dependente sendo explicada pelos atributos associados aos mesmos, estipulando-se o valor de mercado das características de um bem.  Equações de regressão múltipla, apresentando a seguinte forma geral em forma de matriz: 𝒀 = 𝑿𝜷 + 𝜺 Onde: 𝒀𝒏𝒙𝟏 = 𝑽𝒆𝒕𝒐𝒓 𝒅𝒂 𝒗𝒂𝒓𝒊á𝒗𝒆𝒍 𝒅𝒆𝒑𝒆𝒏𝒅𝒆𝒏𝒕𝒆; 𝑿𝒏𝒙𝒑 = 𝑴𝒂𝒕𝒓𝒊𝒛 𝒅𝒆 𝒗𝒂𝒓𝒊á𝒗𝒆𝒊𝒔 𝒊𝒏𝒅𝒆𝒑𝒆𝒏𝒅𝒆𝒏𝒕𝒆𝒔; 𝜷𝒑𝒙𝟏 = 𝑽𝒆𝒕𝒐𝒓 𝒅𝒆 𝒑𝒂𝒓â𝒎𝒆𝒕𝒓𝒐𝒔; 𝜺𝒏𝒙𝟏 = 𝑽𝒆𝒕𝒐𝒓 𝒅𝒆 𝒕𝒆𝒓𝒎𝒐𝒔 𝒅𝒆 𝒆𝒓𝒓𝒐𝒔 𝒂𝒍𝒆𝒂𝒕ó𝒓𝒊𝒐𝒔;
  • 12. Cases de Regressão (Aprendizagem Supervisionada)  A base de dados consiste em uma pesquisa realizada pelas imobiliárias do Rio de Janeiro para a Caixa Econômica Federal do Rio de Janeiro • Foram pesquisados imóveis vendidos para os anos de 2004 a 2012 • São utilizados os dados referentes ao período de 2010 a 2011, totalizando 2.720 imóveis vendidos.  Foram utilizadas também, variáveis do banco de dados do armazém de dados da prefeitura (IPP - Instituto Pereira Passos)  Atualização dos preços dos imóveis vendidos através do IGP-M da fundação Getúlio Vargas a critério de comparabilidade dos preços em 2010 e 2011
  • 13. Cases de Regressão (Aprendizagem Supervisionada)  Preço médio do imóvel por quantidade de garagens, no ano de 2010.
  • 14. Cases de Regressão (Aprendizagem Supervisionada)  Preço médio do imóvel por quantidade de banheiros, no ano de 2010.
  • 15. Cases de Regressão (Aprendizagem Supervisionada)  Estatísticas Descritivas da amostra dos dados de apartamentos vendidos nos anos de 2010 e 2011 por área de planejamento. Valor total (R$) Áreas de Planejamento(AP) Quantid ade de Imóveis Média Desvio Padrão CV(% ) Mínim o Máximo AP1(Centro e Centro Histórico) 103 144.921 78.579 54.2 37.599 436.084 AP2(Zona Sul e Sudoeste) 611 363.436 280.492 77.2 48.016 2.892.653 AP3(Zona Norte) 966 117.431 61.384 52.3 25.772 473.814 AP4(Barra da Tijuca e Jacarepaguá) 826 241.810 184.670 76.4 23.261 2.246.612 AP5(Zona Oeste) 214 80.341 34.693 43.2 30.468 212.493
  • 16. Cases de Regressão (Aprendizagem Supervisionada) Estatísticas Descritivas da amostra dos dados de apartamentos vendidos no ano de 2010 Estatísticas /Variáveis Valor Total(R$) Área Privativa(m² ) Idade aparente do Imóvel Vaga de Garagem Quartos Banheiros N. Válidos 1.416 1416 1.416 1139 1416 1411 N. Faltantes 0 0 0 277 0 5 Moda 83.944,4 50 30 1 2 1 Média 194.998 75 26 1 2 1 Q2 ou Mediana 132.132,4 67 26 1 2 1 Desvio Padrão 166.540,2 35,8 17 0,62 0,63 0,64 Cv 85% 47,8% 65% 62% 31,5% 64% Mínimo 27.305,7 16 0 0 1 1 Máximo 1.523.411,6 375 73 4 6 6 Q1 83944,4 53 11 1 2 1 Q3 254.330,6 86 38 1 2 2
  • 17. Cases de Regressão (Aprendizagem Supervisionada)  Distribuição dos preços de imóveis vendidos nos anos de 2010 e 2011
  • 18. Cases de Regressão (Aprendizagem Supervisionada)  Distribuição do log dos preços de imóveis vendidos nos anos de 2010 e 2011
  • 19. Cases de Regressão (Aprendizagem Supervisionada)  Reta Ajustada
  • 20. Cases de Regressão (Aprendizagem Supervisionada)  O trabalho utilizou a abordagem de regressão linear para compreensão dos preços dos imóveis residenciais no município do Rio de Janeiro nos anos de 2010 e 2011, de forma a identificar quais são os elementos mais relevantes para a determinação do preço neste mercado.  O modelo encontrado apresentou todas as variáveis significativas aos 3 níveis usuais de significância (1%,5%e 10%), apresentando um R²=0,87,com R² Ajustado próximo do R², o que indica que o modelo está bem especificado.  O modelo apresentou todos os coeficientes positivos com exceção da variável que indica a área de planejamento 5 (Zona Oeste), indicando que os imóveis quando são pertencentes a mesma tem um decréscimo de 19,5% na estimação do preço o que é explicado pelo fato de possuir a menor média de preços por área de planejamento, é composta por Realengo, Bangu e Santa cruz.
  • 21. Cases de Regressão (Aprendizagem Supervisionada)  Variáveis que mais explicam o preço de um imóvel residencial: • IDS(Índice de Desenvolvimento social) • Vagas – Número de vagas de garagem da unidade residencial, de qualquer natureza • Quartos – Número de quartos da unidade residencial • Banheiros– Número de banheiros da unidade residencial • Valor Unitário – Valor unitário do imóvel em R$/m² • Quantidade de domicílios com Sanitário e Esgotamento Sanitário por área de planejamento. • Área de Planejamento onde é localizado o Imóvel.
  • 23.
  • 24.
  • 25.
  • 26. Vamos para o Hand´s on!
  • 27. Timeline do R: 45 Anos de Linguagem R