Este documento apresenta um resumo sobre análise de dados e dados abertos. Apresenta conceitos de big data, data mining, machine learning e a importância da análise de dados. Discute também projetos de pesquisa relacionados ao tema e orientações de TCC.
Família de palavras.ppt com exemplos e exercícios interativos.
Data analysis open data
1. 1
Data Analysis
Open Data
Professoras: Ceça e Roberta
Estudantes: Jonathan e Lisandra
Departamento de Estatística e Informática (DEINFO)
Universidade Federal Rural de Pernambuco (UFRPE)
7. Big Data é um tsunami (ainda) em alto mar
Data Mining Lifecycle
8. Explosão de Dados
Source: International Data Corporation (IDC) - https://www.idc.com
Web 2.0 e IoT
10
20
30
40
2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020
2011 1,7 ZB
2017 14 ZB
2020 40 ZB
The measure of all digital data created, replicated and consumed
The Digital Universe
9. Fonte: IBM - http://www.ibm.com/midmarket/br/pt/infografico_bigdata.html
15 petabytes de dados estruturados (10%) e
não estruturados (90%) são gerados todos os dias!
10.
11. Big Data can be characterised as amount
of digital data that is uncomfortable to
store, transport or analyse.
21. The amount of data
generated on planet earth
is growing exponentially
22. How much of the vast
amounts of data do we
analyse?
23. 0,5%Just imagine the potential here!
Source: https://www.forbes.com/sites/bernardmarr
24. 3% dos dados potencialmente úteis é identificado,
menos ainda é analisado.
25.
26. Se você não está pagando
pelo produto/software,
você é o produto!Produto = dados que você gera
27.
28. Deseja conhecer o perfil de clientes/estudantes/pacientes?
Deseja encontrar tendências úteis, tais como o comportamento dos
consumidores?
Pretende agregar valor (R$) com as técnicas de análise de dados?
Almeja tornar o marketing mais eficiente, fazendo sua instituição prosperar?
Quer descobrir do governo a fim de fiscalizar e cobrar a aplicação das
políticas públicas em benefício dos cidadãos?
Então, prepare-se para seus dados!
30. Aplicações Potenciais de DM
Áreas de
Aplicações
Vendas e
Marketing
Redes
Sociais
Bancos e
Finanças
Política
Saúde
Educação
(MDE)
Entre outras...
31. Exemplo clássico de DM
O que cerveja tem a ver com fraldas?
Suposições:
– Tem o mesmo número de letras?
– Cerveja no presente, fraldas no futuro?
– ???
32. • Constatou-se que muitos homens casados, entre 25 e 35 anos,
compravam fraldas e cervejas às sextas-feiras à tarde/noite
(provavelmente no caminho do trabalho para casa).
• Walmart otimizou as prateleiras nos pontos de vendas,
colocando as fraldas ao lado das cervejas.
• Resultado: o consumo cresceu ainda mais.
30%
33. Exemplo 2 (caso verídico em 2012)
Grande rede de varejo dos EUA descobre gravidez
de adolescente antes dos pais.
TARGET
35. Exemplo 3 - Banco Itaú
Enviava mais de 1 milhão de malas diretas, para
todos os correntistas.
– No máximo 2% deles respondiam às promoções.
Hoje, com a mineração dos dados, as cartas são enviadas apenas a
quem tem maior chance de responder.
– A taxa de retorno subiu para 30%.
– A conta do correio foi reduzida a 1/5.
36. Exemplo 4 - SERPRO
Investiu milhões no seu projeto de DW e DM, desenvolvido em
parceria com a Oracle.
Consolidou 5% de suas informações, mas atualmente já é possível
fazer em 5 minutos cruzamentos de dados que antes demandavam
dias de trabalho.
38. Projeto de Pesquisa
Processo de Descoberta de Conhecimento em Ambientes Virtuais
de Aprendizagem da Educação a Distância (FACEPE/CNPq)
OBJETIVO: traçar perfil de estudantes e cursos da EaD (PE, PB e Nacional),
visando investigar obstáculos enfrentados pelos docentes, discentes e instituições
que ofertam cursos na modalidade a distância.
DADOS:
Sistemas de gestão acadêmica (SIG@ e SIGAA) de duas IES:
2007 a 2014
39. Projeto de Pesquisa
Processo de Descoberta de Conhecimento em Ambientes Virtuais
de Aprendizagem da Educação a Distância (FACEPE/CNPq)
Deu origem a dois novos projetos:
1. Data Mining em Ambientes Virtuais de Aprendizagem para Educação a
Distância (PIBITI/CNPq) – 2014 a 2015.
2. Mineração de Dados Educacionais em Ambientes B-learning de
Instituições Federais de Ensino Superior (PIBIC/PIC/UFRPE) – 2015 a 2016
40. Projeto de Pesquisa
Algoritmos do Aprendizado de Máquina Aplicados na Mineração de
Dados Educacionais Abertos do INEP
OBJETIVO: implementar um ambiente computacional analítico visando analisar o perfil
de estudantes e instituições brasileiras de ensino fundamental, médio e superior.
DADOS:
Censo Escolar
Censo da Educação Superior
2014 e 2015
41. Projeto de Pesquisa
Algoritmos do Aprendizado de Máquina Aplicados na Mineração de
Dados Educacionais Abertos do INEP
Deu origem a dois novos projetos:
1. Algoritmos do Aprendizado de Máquina Aplicados na Mineração de Dados
Educacionais do INEP (PIBIC/CNPq) – 2017.
2. Técnicas de Classificação e Associação Aplicadas em Dados Abertos dos
Censos da Educação Básica e Superior (PIBITI/CNPq) – 2017.
43. Orientações TCC
2014/2015
Comparação de Algoritmos do Aprendizado de
Máquina Aplicados na Mineração de Dados
Educacionais – Mirela.
Descoberta de Conhecimento Utilizando Mineração
de Dados Educacionais Abertos – Tancicleide.
Implementação de SIG e Mapas de Kernel visando
Acessibilidade na Educação Superior – Fernanda.
44. Orientações TCC
2016
Análise de desempenho de banco de dados não relacionais no
cenário de dados abertos educacionais – Felipe.
Processo de descoberta de conhecimento em Big Data
educacional para implementação de um Sistema de Informação
Geográfica – Rafaella.
Análise de modelos de dados não relacionais e
multidimensionais no contexto de Big Data – Maria Camila.
Um framework multiplataforma para análise e monitoramento
de dados governamentais – Geraldo.
45. Orientações TCC
2017 (em andamento...)
Processo KDD de Decretos e Convênios: Estudo de Caso
ALEPE – Gustavo.
Mapas de Kernel para Análise de Dados Minerados Do
Mercado – Anderson.
46. Pesquisas em Análises de Dados e Dados Abertos
Obtenção (e limpeza) dos dados!
Limitações
47.
48. Big Data é um tsunami AINDA em alto mar
Data Analyst
Data Scientist
49. Portal Brasileiro de Dados Abertos
Dados Abertos do Recife
Convênios e Contratos da Administração Pública Federal
Portal de Transparência dos Recursos Públicos Federais
Portal de Transparência do Conselho Nacional de Justiça
Portal de Transparência do Ministério Público Federal
Portal de Transparência da Polícia Federal
Instituto Brasileiro de Geografia e Estatística (IBGE)
Dados Abertos Educacionais do INEP/MEC
UCI Repository of Machine Learning Databases
Kaggle Datasets
Dados abertos da NASA
Gapminder
Google Public Data e Google Finance
Freebase
DataViva
Bases de Dados Abertas (Diversos Domínios)
51. Introdução ao Tema
Cap. 28 - Conceitos de Mineração de Dados
Cap. 29 - Visão Geral de Data Warehousing e OLAP
Cap. 20
Depósito e
Mineração de Dados
52. William H. Inmon
Ian H. Witten
Pang-Ning Tan
Jiawei Han; Micheline Kamber;
Jian Pei
Matthew A. Russell
Gordon S. Linoff
Michael J. A. Berry
Viktor Mayer-schonberger
Bibliografias Indicadas
Roland Bouman
53. 53
Data Analysis
Open Data
Professoras: Ceça e Roberta
Estudantes: Jonathan e Lisandra
Departamento de Estatística e Informática (DEINFO)
Universidade Federal Rural de Pernambuco (UFRPE)