palestra realizada no IEP - Institudo de Engenharia do Paraná no dia 29/10/2016
Resumo
A palestra oferece uma visão abrangente e aprofundada sobre como Big Data e IoT estão remodelando a forma como interagimos com o mundo ao nosso redor. Binhara compartilha seu conhecimento técnico e experiências práticas, demonstrando a aplicabilidade dessas tecnologias em diferentes contextos e enfatizando a necessidade de uma gestão de dados eficaz para extrair o máximo valor das informações. A apresentação não apenas destaca o potencial de Big Data e IoT para impulsionar inovações em diversos setores, mas também aborda os desafios associados, especialmente em termos de segurança e privacidade dos dados.
Descrição Detalhada
A apresentação inicia-se definindo o conceito de IoT como dispositivos conectados à internet que comunicam, armazenam e processam dados com mínima interferência humana. Essa integração entre dispositivos gera um volume imenso de dados, os quais, quando analisados e interpretados através de tecnologias de Big Data, como Hadoop, MapReduce, Mahout, entre outros, podem fornecer insights valiosos para tomadas de decisão mais assertivas.
Binhara enfatiza a Cadeia de Valor do Big Data, que inclui etapas como coleta, ingestão, limpeza, integração, análise e entrega de dados, e discute os desafios relacionados à segurança, privacidade e gerenciamento de dados. Ele também destaca a diversidade das fontes de dados, desde sensores até redes sociais, reforçando a ideia de que dados podem ser capturados de qualquer lugar, a qualquer momento.
O palestrante apresenta exemplos práticos de aplicação de Big Data e IoT, incluindo cidades inteligentes (Smart Cities), onde a tecnologia é aplicada para melhorar a gestão urbana, e o uso do Hadoop em grandes empresas como Yahoo e Facebook para processamento de dados em larga escala.
8. Cadeia de Valor do BigData
Coleção - Dados estruturados, não estruturados e semi-estruturados de múltiplas fontes
Ingestão - carregamento de grandes quantidades de dados em um único armazenamento de dados
Discovery & Cleansing - compreensão do formato e conteúdo; Limpeza e formatação
Integração - vinculação, extração de entidade, resolução de entidade, indexação e fusão de dados
Análise - Inteligência, estatística, análise preditiva e de texto, aprendizado de máquina
Entrega - consulta, visualização, entrega em tempo real com disponibilidade de classe empresarial
Collection Ingestion
Discovery
&
Cleansing
Integratio
n
Analysis Delivery
10. Considerações para a grande
padronização de dados
Variedade de Casos de Uso
Mobilidade
Segurança e privacidade
Gerenciamento do ciclo de vida e
qualidade dos dados
Gerenciamento do sistema e outros
problemas
Características dos dados
Distribuído / Centralizado
Os 4 V's: Volume, Velocidade,
Variedade, Veracidade
Coleção de dados
Visualização de dados
Qualidade dos dados
Análise de dados e ação
11. DataSource
Source
Sensores
Aplicações
Agentes de software
Indivíduos
Organizações
Recursos de hardware
Fontes de dados publicas
Sites internet
Redes Sociais
Any*
A qualquer momento
Qualquer coisa
Qualquer Dispositivo
Qualquer Contexto
Qualquer lugar
Qualquer lugar
Alguém
12. IOT Aplicado a SmartCitys ???
Como pode funcionar ?
Como Coletar os dados ?
Como Armazenar ???
Como processar ???
Como Tornar uma cidade inteligente ??
13. Cluster no Hadoop no Yahoo
Atualmente o Yahoo tem 3 cluster com mais de 42mil máquinas para testes
16. Uso Comum do Hadoop – Case ...
1. Social
Entenda como seus clientes se sentem sobre a sua marca
e produtos – agora
2. Clickstream
Capturar e analisar as pistas de dados visitantes do site e
otimizar seu site
3. Sensor/Machine
Descobrir padrões nos dados que fluem automaticamente
a partir de sensores e máquinas remotas
4. Geolocation
Analisar dados baseados em localização para gerenciar as
operações onde ocorrem
5. Server Logs
Log de pesquisa para diagnosticar falhas no processo e
prevenir violações de segurança
6. Unstructured (text, video, pictures, etc..)
Compreender padrões de texto através de milhões de
produtos de trabalho não estruturados: páginas web, e-
mails, vídeos, fotos e documentos
Valor
17. O que é Hadoop ?
O Apache Hadoop é um projeto desenvolvimento como open-
source software para escalável , confiável e com processamento
distribuído.
Um sistema escalável e confiável para armazenamento
compartilhado e análises.
Ele automaticamente trata da replicação de dados e das falhas
em cada nó.
Ele faz o trabalho duro, o desenvolvedor pode se concentrar
em processamento da lógica de dados
Permite que os aplicativos usem petabytes de dados em
paralelo.
21. Compartivo
SQL
Banco Relacional
Escalabilidade vertical
Terabytes
RAID, HDs rápidos
Mais dados, troque o servidor
BigTable
Escalabilidade horizontal
Petabytes
CPU Rápida/ Baixo custo
Padrão, HDs duráveis
Mais dados, adicione mais
servidores
22. Bigatable is a sparse, distributed persistence
multidimensional sorted map.
PETABYTES
23. O que map reduce ?
Estratégia de dividir para conquistar
MapReduce é um modelo de programação e implementação associados
para o processamento e geração de grandes conjuntos de dados (Jeffrey
Dean e Sanjay Ghemawat, 2004)
Baseado em um modelo de programação funcional (como Lisp, Ml, etc)
Processamento de dados base em batch
A abstração limpa para programadores
Paralelização automática e distribuição
Tolerância a falhas
33. Casos TomTom
Empresa de GPS
Vendendo os hábitos dos motoristas para a policia
local para chegar em casa mais rápido
A policia passou a colocar radares e fiscalizar
essas rodas
Aplicando multas aos motoristas
35. Captura e Processamento dos Vídeos
As imagens são capturadas e processadas em
tempo real.
Podemos notar as marcações realizadas pelo
software de análise.
Ele consegue identificar os carros em movimentos
e verificar várias infrações, como :
Velocidade acima de 10% do limite
Velocidade acima de 20% do limite
Avanço de Sinal
Caminhão fora de horário
Sobre a faixa de pedestre
38. Prótotipo
Passeio Virtual
Sala de Operações
Produto Brasileiro
Startup Paranaense
Lançamento na CES em Las Vegas
http://beenoculus.com.br/
‘
39. Monitoramento de Transito
Sala de Operações
Este é nosso quarto operacional. Projeção
de realidade estendido usando o Novell.
Este quarto tem favoritos em toda a sua
volta. No chão, temos um mapa da cidade
de Curitiba, onde com a utilização de um
óculos de realidade aumentada. A
informação recolhida é projetada para
câmeras. Imagens são processadas em um
cluster de Hadoop
41. Como deixo minha meu Sistema
Inteligente ???
Processamento em Realtime
Bases de conhecimento
Maquinas de Aprendizado
Sistema de Recomendação .
42. Treinamentos
Presencias, On-line e Semipresenciais
Curso: Apache Hadoop Essencial
(8horas )
Curso: Introdução ao Futuro Cientista
de Dados (8h)
Curso: DataScientist e BigData for
Bussines (16h)
Curso: Apache Hadoop Fundamental
(24h)
Treinamento e Workshop
Ferramentas de BigData com
EcoSistema Hadoop (40h)
Treinamento Apache Sqoop (8h)
Treinamento Apache Cassandra (16h)
Treinamento HBase (16h)
Treinamento Hive (16h)
Treimento Mahout (16h)
Curso + Treinamento em BI aplicado a
máquinas de aprendizado Mahout
(30h)
Curso de Splunk (16h)
Curso Pig e Pig Latin (16h)
Curos de Programaçao em MapReduce
com Java e C# (16h)
Curso de Flume (16h)