Best VIP Call Girls Noida Sector 22 Call Me: 8448380779
Data Mining & Predictive Analysis - PPGADM UFG - Prof. Thiago Marques
1. Data Mining & Predictive
Analysis
Prof.Thiago Marques
2. Minha linha do tempo
2014
2015
2016
2017
2018
2019
Analista censitário IBGE
Palestras (Unicamp,T de beer
Student, Big Data Brasil Day,
Big Data brazil Experiente,
Casnav, Nvidia Conference,
Eneat, LABtalks Globo, Semest
UFF)
Professor (Pós Bi e Big data -
Unisuam)
Professor (Pós em ciência de
dados da Senac RJ)
Estathifisco vira Estatidados
Comunidade de Estatística do
Prof. Thiago Marques
Mini curso Estatística e R
(SPOLM)
Disciplina isolada - Mestrado
de Engenharia de Transportes
no IME(Instituto Militar de
Engenharia) – Métodos
computacionais para a
tomada de decisão.
Grade de Estudos
DS/Concursos
(6horas/dia)
Consultorias e Aulas
particulares
Processo seletivo
EY(Antiga Ernest
young)
Analista censitário
IBGE
2020
Professor (MBA
em Ciência de
dados – Farias
Brito - Fortaleza)
Professor (Pós em
ciência de dados
da Unifor Fortaleza)
Professor
Palestrante ((MBA
Ciência de dados
PUC RIO)
Professor (Pós em
Data Science e
Analytics USP)
Casa da Pesquisa
Operacional)
Estatidados
em artigos
2021
Professor (MBA
Executivo em
Ciência de dados –
TREVISAN
Professor (Pós em
B.I e ciência de
dados da ICEV)
Professor
convidado ( MBA
em BI, Marketing
Digital e Estratégia
Data Driven da
PUC RS)
Coordenador MBA
Data Science and
Statistics (Business
School Brasil)
5. Cases de Machine Learning - Sucessos
Na Shell, a manutenção preditiva reduz custos e aumenta a produtividade o
tempo ocioso das máquinas custa milhões de dólares por dia, a Shell investiu em
análise de dados para reduzir os custos de manutenção e aumentar a
produtividade, modelos preditivos para prever quando qualquer uma das mais de
3 mil peças de perfuratrizes de petróleo falhariam.
A Danone cruza informações de rotas, tempo de entrega e prazo de validade
usando algoritmos de otimização para entrega no prazo de validade.
A Starbucks se utiliza de técnicas de Big Data para guiar o processo de abertura de
suas cafeterias, enfrentando a onda do e-commerce e, principalmente,
aperfeiçoando a relação entre suas lojas, sua marca e seu público-alvo.
6. Cases de Machine Learning - Insucessos
Algoritmo de saúde falhou ao sinalizar pacientes negros: Em 2019, um estudo
publicado na Science revelou que um algoritmo de previsão de saúde, usado por
hospitais e seguradoras em todos os Estados Unidos para identificar pacientes
que precisam de programas de "gerenciamento de cuidados de alto risco", tinha
muito menos probabilidade de destacar pacientes negros.
Conjunto de dados treinou o chatbot da Microsoft para enviar tweets racistas: Em
março de 2016, a Microsoft descobriu que usar as interações do Twitter como
dados de treinamento para algoritmos de machine learning pode ter resultados
desanimadores. A ideia era que o chatbot assumisse a personalidade de uma
adolescente e interagisse com os indivíduos via Twitter usando uma combinação
de machine learning e processamento de linguagem natural.
7. Cases de Machine Learning - Insucessos
Analytics da Target violou privacidade: Em 2012, um projeto de analytics do titã
do varejo Target mostrou o quanto as empresas podem aprender sobre os
clientes a partir de seus dados. De acordo com o New York Times, em 2002 o
departamento de marketing da Target começou a se perguntar como poderia
determinar se as clientes estavam grávidas. Essa linha de investigação levou a um
projeto machine learning que levaria o varejista a revelar inadvertidamente à
família de uma adolescente que ela estava grávida (Reza a lenda).
8. Case de Regressão (Aprendizagem
Supervisionada) - Imersão
Regressão Linear - Machine Learning para precificação de imóveis no município
do RJ: Uma aplicação de Regressão Linear
Motivação: O município do RJ Vinha sofrendo grandes transformações devido ás
obras de acessibilidade de apoio a 2 grandes eventos (Copa do mundo de 2014 e
olimpíadas em 2016.)
Principais transformações na cidade: Criação de eixos rodoviários como:
Transcarioca; Transolímpica e Transoeste, projeto porto maravilha e instalação das
Unidades de Polícia Pacificadoras (UPP).
9. Cases de Regressão (Aprendizagem
Supervisionada)
Bairros com maiores valorizações dos imóveis no Rio de Janeiro.
Região Valor m² em Jan/10 Valor m² em Set/12 Valorização
Leblon 12.726,00 39.391,40 210%
Ipanema 10.708,90 32.653,40 205%
Gávea 10.817,50 32.539,20 201%
Tijuca 2.586,00 7.611,70 194%
Lagoa 12.645,60 36.088,40 185%
Vila Isabel 2.258,30 5.335,00 136%
Laranjeiras 5.439,24 11.822,84 117%
Cosme Velho 5.739,40 12.420,00 116%
Fonte: Engenharia,J.F. (2013)
10. Cases de Regressão (Aprendizagem
Supervisionada)
Objetivo geral
Estimar o preço de imóveis no município do Rio de Janeiro para os anos de 2010 e
2011.
Unidade de análise: áreas de planejamento do município do Rio de Janeiro
Objetivos específicos:
Selecionar as características físicas (área, padrão construtivo, número de vagas na
garagem, etc) e variáveis que caracterizem a unidade de análise, que mais dão
valor aos imóveis residenciais nos anos de 2010 e 2011.
Elaborar o modelo para estimação do preço e validá-lo verificando se está dentro
das hipóteses de modelagem estatística.
11. Cases de Regressão (Aprendizagem
Supervisionada)
Modelos de Regressão linear
O preço de venda das unidades residenciais é a variável dependente sendo
explicada pelos atributos associados aos mesmos, estipulando-se o valor de
mercado das características de um bem.
Equações de regressão múltipla, apresentando a seguinte forma geral em forma
de matriz:
𝒀 = 𝑿𝜷 + 𝜺
Onde:
𝒀𝒏𝒙𝟏 = 𝑽𝒆𝒕𝒐𝒓 𝒅𝒂 𝒗𝒂𝒓𝒊á𝒗𝒆𝒍 𝒅𝒆𝒑𝒆𝒏𝒅𝒆𝒏𝒕𝒆;
𝑿𝒏𝒙𝒑 = 𝑴𝒂𝒕𝒓𝒊𝒛 𝒅𝒆 𝒗𝒂𝒓𝒊á𝒗𝒆𝒊𝒔 𝒊𝒏𝒅𝒆𝒑𝒆𝒏𝒅𝒆𝒏𝒕𝒆𝒔;
𝜷𝒑𝒙𝟏 = 𝑽𝒆𝒕𝒐𝒓 𝒅𝒆 𝒑𝒂𝒓â𝒎𝒆𝒕𝒓𝒐𝒔;
𝜺𝒏𝒙𝟏 = 𝑽𝒆𝒕𝒐𝒓 𝒅𝒆 𝒕𝒆𝒓𝒎𝒐𝒔 𝒅𝒆 𝒆𝒓𝒓𝒐𝒔 𝒂𝒍𝒆𝒂𝒕ó𝒓𝒊𝒐𝒔;
12. Cases de Regressão (Aprendizagem
Supervisionada)
A base de dados consiste em uma pesquisa realizada pelas imobiliárias do Rio de
Janeiro para a Caixa Econômica Federal do Rio de Janeiro
• Foram pesquisados imóveis vendidos para os anos de 2004 a 2012
• São utilizados os dados referentes ao período de 2010 a 2011, totalizando
2.720 imóveis vendidos.
Foram utilizadas também, variáveis do banco de dados do armazém de dados da
prefeitura (IPP - Instituto Pereira Passos)
Atualização dos preços dos imóveis vendidos através do IGP-M da fundação Getúlio
Vargas a critério de comparabilidade dos preços em 2010 e 2011
13. Cases de Regressão (Aprendizagem
Supervisionada)
Preço médio do imóvel por quantidade de garagens, no ano de 2010.
14. Cases de Regressão (Aprendizagem
Supervisionada)
Preço médio do imóvel por quantidade de banheiros, no ano de 2010.
15. Cases de Regressão (Aprendizagem
Supervisionada)
Estatísticas Descritivas da amostra dos dados de apartamentos vendidos nos anos de
2010 e 2011 por área de planejamento.
Valor total (R$)
Áreas de
Planejamento(AP)
Quantid
ade de
Imóveis
Média Desvio
Padrão
CV(%
)
Mínim
o
Máximo
AP1(Centro e Centro
Histórico)
103 144.921 78.579 54.2 37.599 436.084
AP2(Zona Sul e
Sudoeste)
611 363.436 280.492 77.2 48.016 2.892.653
AP3(Zona Norte) 966 117.431 61.384 52.3 25.772 473.814
AP4(Barra da Tijuca e
Jacarepaguá)
826 241.810 184.670 76.4 23.261 2.246.612
AP5(Zona Oeste) 214 80.341 34.693 43.2 30.468 212.493
16. Cases de Regressão (Aprendizagem
Supervisionada)
Estatísticas Descritivas da amostra dos dados de apartamentos vendidos no ano
de 2010
Estatísticas
/Variáveis
Valor
Total(R$)
Área
Privativa(m²
)
Idade
aparente
do
Imóvel
Vaga de
Garagem
Quartos Banheiros
N. Válidos 1.416 1416 1.416 1139 1416 1411
N. Faltantes 0 0 0 277 0 5
Moda 83.944,4 50 30 1 2 1
Média 194.998 75 26 1 2 1
Q2 ou Mediana 132.132,4 67 26 1 2 1
Desvio Padrão 166.540,2 35,8 17 0,62 0,63 0,64
Cv 85% 47,8% 65% 62% 31,5% 64%
Mínimo 27.305,7 16 0 0 1 1
Máximo 1.523.411,6 375 73 4 6 6
Q1 83944,4 53 11 1 2 1
Q3 254.330,6 86 38 1 2 2
17. Cases de Regressão (Aprendizagem
Supervisionada)
Distribuição dos preços de imóveis vendidos nos anos de 2010 e 2011
18. Cases de Regressão (Aprendizagem
Supervisionada)
Distribuição do log dos preços de imóveis vendidos nos anos de 2010 e 2011
20. Cases de Regressão (Aprendizagem
Supervisionada)
O trabalho utilizou a abordagem de regressão linear para compreensão dos preços
dos imóveis residenciais no município do Rio de Janeiro nos anos de 2010 e 2011, de
forma a identificar quais são os elementos mais relevantes para a determinação do
preço neste mercado.
O modelo encontrado apresentou todas as variáveis significativas aos 3 níveis usuais
de significância (1%,5%e 10%), apresentando um R²=0,87,com R² Ajustado próximo
do R², o que indica que o modelo está bem especificado.
O modelo apresentou todos os coeficientes positivos com exceção da variável que
indica a área de planejamento 5 (Zona Oeste), indicando que os imóveis quando são
pertencentes a mesma tem um decréscimo de 19,5% na estimação do preço o que é
explicado pelo fato de possuir a menor média de preços por área de planejamento,
é composta por Realengo, Bangu e Santa cruz.
21. Cases de Regressão (Aprendizagem
Supervisionada)
Variáveis que mais explicam o preço de um imóvel residencial:
• IDS(Índice de Desenvolvimento social)
• Vagas – Número de vagas de garagem da unidade residencial, de qualquer natureza
• Quartos – Número de quartos da unidade residencial
• Banheiros– Número de banheiros da unidade residencial
• Valor Unitário – Valor unitário do imóvel em R$/m²
• Quantidade de domicílios com Sanitário e Esgotamento Sanitário por área de
planejamento.
• Área de Planejamento onde é localizado o Imóvel.