Atualmente o facebook recebe diariamente cerca de 380 milhões de fotos por dia, isso significa um custo de milhares de computadores para conseguir armazenar esse volume de dados. Mas por que o facebook, google e outros mantem serviço gratuitos se tem um custo alto para operar esses serviços? Conheça um pouco da tecnologia por trás desse serviços, a legalidade do armazenamento e rastreamento dos dados, e por que essa empresa investem tanto para dar um serviço de graça.
5. • Seus contatos
• Seus comentários
• Suas mensagens
• Seus postes
• Sua Localização
• Quanta informação o facebook sa
6.
7.
8. http://www.extremetech.com/extreme/178777-facebooks-facial-recognition-software-is-now-as-accurate-as-the-human-
brain-but-what-now
DeepFace pode olhar para duas fotos , e
independentemente da iluminação ou do
ângulo, pode-se dizer com precisão 97,25 % se
as fotos contêm o mesmo rosto.
Os seres humanos podem executar a mesma
tarefa com precisão 97,53 %.
Usa IA com redes neurais , consiste em um
grupo de neurônios nove camadas profundas , e
em seguida um processo de aprendizagem que
vê a criação de 120 milhões de conexões
(sinapses) entre esses neurônios , com base em
um corpus de quatro milhões de fotos de rostos
9. • Em janeiro de 2011
• “As pessoas celebraram o ano novo no Facebook enviando um número
recorde de fotos – 750 milhões somente no fim de semana!”, comunicou a
diretora via Twitter, nesta terça-feira (4/1).
• Simples, todos os dias o facebook recebe mais de 200 milhões de
fotos!!!
• Como armazena e consegue processar tudo isso???
10.
11. • O cientista de dados é um especialista em análise
de informações. A característica mais importante
desse profissional é a capacidade analítica. Por
isso, quem tem uma sólida formação em
matemática e lógica, como engenheiros,
economistas, estatísticos e matemáticos, é forte
candidato a se sair bem na carreira.
• “Ter um consistente background em matemática é
fundamental, senão a pessoa tem que suar muito
para preencher a lacuna", Fundação Getúlio
Vargas do Rio de Janeiro (FGV-RJ), 2011.
Salário mediano anual em
milhares de dólares dividido
pelos grupos identificados.
Fonte: O'Reilly.
12.
13.
14.
15.
16.
17. • O Apache Hadoop é um projeto desenvolvimento como open-
source software para escalável , confiável e com processamento
distribuído. Um sistema escalável e confiável para
armazenamento compartilhado e análises. Ele automaticamente
trata da replicação de dados e das falhas em cada nó. Ele faz o
trabalho duro, o desenvolvedor pode se concentrar em
processamento da lógica de dados Permite que os aplicativos
usem petabytes de dados em paralelo.
O que é Hadoop ?
18. Por que ?
• Requisitos
• 500M+ usuário únicos por mês
• Bilhões de eventos interessantes por dia
• Necessidade de scalabilidade massiva
• PB’s de storage, milhares de arquivos,
1000’s de nós
• Necessidade de ter baixo custo
• Uso de hardware comum
• Compartilhar recursos com vários
projetos
• Fornecer escala quando necessário
• Precisa de infraestrutura confiável
• Deve ser capaz de lidar com falhas -
hardware, software, networking
• A falha é esperada, e não uma exceção
• Transparente para as aplicações
• muito caro para construir confiabilidade em
cada aplicação
• A infra-estrutura do Hadoop prove
essas capacidade.
19. Hadoop no FaceBook
• Cluster em produção
• 4800 cores, 600 máquina, 16GB por máquina
• 8000 cores, 1000 máquinas, 32 GB por máquina
• 4 SATA discos de 1 TB por máquina
• 2 níveis de rede hierárquica, 40 máquinas por rack
• Total do tamanho do cluster 2 PB, projetado para 12 PB no Q3 2009
• Em 2010 - A 1100-machine cluster with 8800 cores and about 12 PB raw
storage.
• Atualmente eles moveram 30PB de para um novo Cluster
• Todos os dias o Facebook recebe 380milhões de novas fotos
• Atualmente o Yahoo tem um cluster com mais de 42mil máquinas de teste
20. HDFS – Hadoop File System
• Inspirado em GFS
• Projetado para
trabalhar com arquivos
muito grandes
• Executado
em hardware commodity
• Streaming de acesso a
dados
• Replicação e localidade
22. HDP: Enterprise Hadoop Distribution
Hortonworks
Data Platform (HDP)
Enterprise Hadoop
• A única 100% open
source e completa
• Classe empresarial,
provado e testado em
escala
• Ecossistema endossado
para garantir a
interoperabilidade
23.
24.
25.
26. Caso você leia todos os contratos vai gastar 180h
Seria um 1mês inteiro de trabalho por ano.
Segundo ... WallStret jornal:
“Consumidores perdem 250bilhões de dólares ao ano
com clausulas escondidas em letras pequenas”
27. • Você da não exclusivamente, irrevogavelmente,
perpétuo, ilimitado, transferível sublicenciável,
livre de roaylties para copiar, preparar trabalhos
derivados de, molhorar, distribuir, publicar ,
manter,....
• O Linkedin se apropria de tudo para sempre.
• O Instagram se dá ao direito de vender as suas
fotos sem compensação posteriores para uso
comerciais.
28. • Para que fim essas informações seriam usadas ?
• E se as empresa fizesse mau uso dessas informações?
• E se o governo utiliza-se dessa informações para espionagem ?
• Somente por causa dos termos de uso e condições...
• Quanto vale essa informação ?
• Você está disposto a fornecer tuas informações para receber um
cachorro quente de graça?
29. • O Licenciamento do Iphone não menciaona a possibilidade de
grampear seu telefone .
• Mas o contrato da AT&T menciona :
• Para “Investigar, prevenir ou reagir em relação atividades ilegais”
30.
31. Sistema de Recomendação
• Sistema de Recomendação de Produtos
• Vitrines inteligentes para lojas online
• Aumento em 60% o volume de faturamento das lojas
• Cluster com 70nós
• Mais de 1.5 milhões de transações por segundo
32. • Em 2001 , Mais de um dúzia leis fora criadas nos EUA para proteger a
privacidade dos usuários... Mas....7 meses depois ...
• Todas as leis foram revogadas
• ou abandonadas
Em Assinatura do Ato Patriota
A lei permite a vigilância de todas as
comunicações, email, internet,
telefones, etc...
33. • Uso de Cookies anônimos no passado
• Mudanças para cookies que podem ser
identificados.
• Os termos do google mudaram e lá está escrito
”..apesar de anônimos os dados, usuários
podem ser identificados quanto tiver
necessidade.”
• Em 2009, facebook tornou padrão como público
no facebook.
• Mesmo que você delete algo, continua lá.
34. • Google Esta cruzando todos os dados na internet
• Empresas de cartão de crédito estão usando para definir limite
de crédito. Caso de pessoas nos EUA que tiveram seus limites
de cartão reduzidos
• Bancos usam para aprovar ou não a abertura de contas.
• Um caso de um cidadão que começou a receber promoções de
produto para gestantes. E foi indignado a loja.
• Empresa de seguro estão usando seus hábitos de compras,
exemplo: Se você costuma comprar bebidas alcoólicas você
apresenta um risco maior
35. • Empresa de GPS
• Vendendo os hábitos dos motoristas para a policia local para chegar
em casa mais rápido
• A policia passou a colocar radares e fiscalizar essas rodas
• Aplicando multas aos motoristas
36. • Governo dos EUA esta digitalizando todas as informações disponíveis.
• Eles podem prever o que esta acontecendo no país e fora.
• NSA é 3X maior que a CIA
• E muito mais secreto que a CIA
37.
38.
39.
40.
41. O Carrier IQ é, em sua essência, um software que registra TODOS os
dados relacionados ao seu comportamento de uso de um celular. Abriu
o site do banco? Digitou palavrão no SMS? O Carrier IQ sabe. Abriu um
site pornográfico? Ele também sabe.
O Logging Test App, para Android, é o mais conhecido, pois oferece tanto a
função de identificação quanto a de remoção. O Voodoo Carrier IQ
Detector apenas localiza a posição do famigerado software em seu aparelho -
função esta também exercida pelo Carrier IQ Detector.