SlideShare une entreprise Scribd logo
1  sur  95
Télécharger pour lire hors ligne
Extraindo dados públicos
       “na marra”

        Pedro Valente
         @pedrovalente
Por quê?


É um dever do cidadão fiscalizar o poder
Por quê?


  Tem um monte de picaretas
se aproveitando do seu dinheiro
Por quê?


São dados que por lei ou por bom senso
       deveriam estar disponíveis
Por quê?


Não adianta tentar esconder,
    a gente dá um jeito
Dados públicos?
Dados do governo
Dados de interesse
     público
Interesse público

   Jornalismo
Jornalismo
         +
Desenvolvimento de
     software
http://www.flickr.com/photos/tracy_collins/2237061185/




   Transparência
Está na moda
Está na moda
e ganha Pulitzer
Está na moda
e ganha Pulitzer
     http://politifact.org
Está na moda
e ganha Pulitzer
     http://politifact.org
"Build something or STFU"
       Matt Waite - Politifact
www.portaltransparencia.gov.br
Como transformar esse
 mundo de dados em
   algo relevante?
http://projects.nytimes.com/crime/homicides/map?hp
Crie aplicações
interativas em cima
        deles
Aplicação




  Crie aplicações
interativas em cima
        deles
Aplicação




  Crie aplicações
interativas em cima
        deles
         Dados
Processador   Aplicação




Fornecedor     Dados
Processador   Aplicação




                          API

Fornecedor     Dados
API
Application Programming Interface
Cada fornecedor
armazena de um jeito
  A API serve para padronizar a saída
API é o balcão da padaria
         Você pede 300 gramas de mortadela
 e a atendente te entrega. Leva também 4 pãezinhos.


       Te vira. Quem faz o sanduíche é você.
Dois papéis
1. Fornecedor

Dados brutos
Grandes volumes
Exclusividade
http://www.flickr.com/photos/streetlife/2309136566/
CET-SP




http://www.flickr.com/photos/streetlife/2309136566/
Dados da CET
Km de congestionamento
Pontos de alagamento
Ocorrências de trânsito
Estrutura de monitoramento exclusiva
Além de monitorar, também precisa
RESOLVER o trânsito!
E aí investem em...
www.cetsp.com.br
Prioridade?
Pouca grana

 Pepinos gigantes

Precisa foco no que
 ninguém mais tem
2. Processador

Recombina, reordena, filtra e segmenta
Identifica padrões e revela tendências
Expõe os resultados
EveryBlock.com
NYTimes


  Text
NYTimes


                                          Text




http://prototype.nytimes.com/represent/
EveryBlock.com

Dados de fornecedores diversos
Micro-relevância
É jornalismo? É software? "Who cares?"
Batia de porta em porta
 implorando por XML
Fornecedor   Processador
Fornecedor   Processador



                  Aplicação
Fornecedor   Processador



                  Aplicação
Dados
Fornecedor    Processador



                   Aplicação
Dados   API
Fornecedor                 Processador

              Ei, 300 gramas de
               mortadela, por
                     favor        Aplicação
Dados   API
Fornecedor                                 Processador

                              Ei, 300 gramas de
                               mortadela, por
                                     favor        Aplicação
Dados   API
                Aqui está,
              senhor, tenha
               um bom dia
Fornecedor   Processador
Fornecedor   Processador



Aplicação
Fornecedor   Processador



Aplicação          Aplicação
Fornecedor       Processador



Aplicação   API        Aplicação
Fornecedor                    Processador

                     Ei, um
                  sanduíche de
                  mortadela, por
Aplicação   API       favor         Aplicação
Fornecedor                                    Processador

                                     Ei, um
                                  sanduíche de
                                  mortadela, por
Aplicação   API                       favor         Aplicação
                    Aqui está,
                  senhor, tenha
                   um bom dia
Maturidade institucional




www.showusabetterway.co.uk
NYT APIs
Congressional Data
                                     NYT APIs
The Congress API returns the following types of data:
 • Roll-call vote data: Only roll-call votes (not voice votes or division votes) are tracked by official
   Congressional data sources. Along with basic vote data, the Times API returns additional information that is
   less readily available, such as party totals. For details, see Responses. For general information about roll-call
   votes, see the THOMAS site.
 • Member data: Along with general biographical information for current and past members of Congress, the
   API returns data about members' Congressional roles. Role data includes the Congress number and chamber,
   as well as the member's title, state and party. A single member may have more than one role in a particular
   Congress (for example, the member may switch parties or move from the House to the Senate). For details,
   see Responses.
Data Sources
The data returned by the Congress API is compiled from the following sources:
 • The official Web site of the Office of the Clerk of the U.S. House of Representatives, for vote data
 • The official Web site of the United States Senate, for vote data
 • The Biographical Directory of the United States Congress, for member biographical information
 • GovTrack.us, for member biographical information
 • MIT Professor Charles Stewart's collection of Congressional data, for role information
 • THOMAS (The Library of Congress), for bill data
 • The C-SPAN Congressional Chronicle, for floor appearances
Certain fields in the API responses (such as party totals) are calculated by The Times, based on these data sources.
For details, see Responses.




                         http://developer.nytimes.com/docs/congress_api
The Guardian
www.guardian.co.uk/open-platform/
The Guardian
www.guardian.co.uk/data-store

www.guardian.co.uk/data-store
The Guardian
http://mps-expenses.guardian.co.uk/
Voltando ao Brasil...
Se o fornecedor não
colabora, fazemos justiça com
      as próprias mãos
Se o fornecedor não
colabora, fazemos justiça com
      as próprias mãos
Scraping = raspagem
Pegar na marra o que não é liberado por API
Robozinhos, crawlers e dumps
Mudança de mentalidade
Uma ajudinha:YQL

• Idioma comum para conversar com diversas
  APIs ou fazer scraping
• Aberto para qualquer um se tornar
  fornecedor ou processador de dados
• Tem um console muito divertido
• http://developer.yahoo.com/yql/console
Uma ajudinha:YQL




http://developer.yahoo.com/yql/console
2 desafios

   Datasets
       &
Consultas online
Datasets
Massas de dados
guardadas em algum
      banco
IBGE
 TSE
Anatel
http://github.com/legisdados/legisdados
YQL + CSV


YQL + XML
CSV to webservice

http://isithackday.com/csv-to-webservice/
<?php
  include('csvtoservice.php');
  $content = csvtoservice('http://winterolympicsmedals.com/medals.csv');
  if($content){

         if($content['form']){
           echo '<h4>Filters</h4>';
           echo $content['form'];
         }

         if($content['table']){
           echo '<h4>Results</h4>';
           echo $content['table'];
         }

     }
?>
Consultas online
Infraero
Infraero
Infraero
Infraero
Infraero
Infraero
poderia ser assim:
Infraero
        poderia ser assim:

www.infraero.gov.br/voos/status/03101
Infraero
        poderia ser assim:

www.infraero.gov.br/voos/status/03101


<status>
  confirmado
</status>
Mas veja o que esses filhas da mãe
fazem pra nos impedir de usar os
           dados deles
http://www.infraero.gov.br/voos/detalhe_voo.aspx?5/Xrn1SlFmeTrR/PL3/MpnK8sgrVY9Ms
                          +9o4x3M9qjM7ysJ8yazx5wXPsRzdou
        +5fzqPSZPiXOSpCOxycPzRH6PIN4I4buChasAEzkA4yV8kHAGUAnVR/
KczuGvooOuczvdlALYzVh3lcyKh+M3QrsBJBmxehWlokYlZbByajEtfYOOFlC8vGsv0I9JVs
                +4MD3i1hIP1FXRc0+EyJhJBL2qiFEy6/fDinPR/mqw675W/
cnhwPjcHtQEvr4NpsYdsP0f8JE0VbKeVci8KGgQ4TZJq1DE3SEjUk7lySiMtlWrZwj+pcazY
         +95lEvSJOwqXbb5FLXNbv0CnrSZ/9CxURzI84m3tI1929Te6IEuJPcE=
Empresa estatal. Serviço público.


Dados de interesse público.


Sem problemas de privacidade.


HACKING LIBERADO!!!
http://anp.gov.br/preco
http://www.precodoscombustiveis.com.br/
YQL + HTML

 YQL Open Tables
http://datatables.org
Referências
http://theinfo.org/
Transparência HackDay
http://groups.google.com/group/thackday

http://delicious.com/tag/scraping
http://delicious.com/tag/publicdata


http://bit.ly/rwwopendata
Libertem
os dados!!!
Obrigado
Contato: @pedrovalente

Contenu connexe

Similaire à Dados públicos na marra

Processamento Dados em Escala com Serverless: Um Estudo de Caso da Amazon.com...
Processamento Dados em Escala com Serverless: Um Estudo de Caso da Amazon.com...Processamento Dados em Escala com Serverless: Um Estudo de Caso da Amazon.com...
Processamento Dados em Escala com Serverless: Um Estudo de Caso da Amazon.com...Amazon Web Services
 
Performing real-time ETL into data lakes - ADB202 - São Paulo AWS Summit
Performing real-time ETL into data lakes - ADB202 - São Paulo AWS SummitPerforming real-time ETL into data lakes - ADB202 - São Paulo AWS Summit
Performing real-time ETL into data lakes - ADB202 - São Paulo AWS SummitAmazon Web Services
 
Cejs notificacoes html5
Cejs notificacoes html5Cejs notificacoes html5
Cejs notificacoes html5rodrigodealer
 
Visão Geral sobre o Application Insights
Visão Geral sobre o Application InsightsVisão Geral sobre o Application Insights
Visão Geral sobre o Application InsightsAndré Dias
 
AI & Big Data - Personalização da Jornada - PicPay - TDC
AI & Big Data - Personalização da Jornada - PicPay - TDCAI & Big Data - Personalização da Jornada - PicPay - TDC
AI & Big Data - Personalização da Jornada - PicPay - TDCRenan Moreira de Oliveira
 
DevDay 2017 - Belo Horizonte - Application Insights
DevDay 2017 - Belo Horizonte - Application InsightsDevDay 2017 - Belo Horizonte - Application Insights
DevDay 2017 - Belo Horizonte - Application InsightsAndré Dias
 
Café com bpm recife palestra automação de processos - airton caetano
Café com bpm recife   palestra automação de processos - airton caetanoCafé com bpm recife   palestra automação de processos - airton caetano
Café com bpm recife palestra automação de processos - airton caetanoEloGroup
 
Como implantar transformações organizacionais a partir de uma plataforma de B...
Como implantar transformações organizacionais a partir de uma plataforma de B...Como implantar transformações organizacionais a partir de uma plataforma de B...
Como implantar transformações organizacionais a partir de uma plataforma de B...EloGroup
 
Dados abertos no brasil
Dados abertos no brasilDados abertos no brasil
Dados abertos no brasilKellyton Brito
 
Industry 4.0- Managing the protocol zoo - SVC204 - São Paulo AWS Summit
Industry 4.0- Managing the protocol zoo - SVC204 - São Paulo AWS SummitIndustry 4.0- Managing the protocol zoo - SVC204 - São Paulo AWS Summit
Industry 4.0- Managing the protocol zoo - SVC204 - São Paulo AWS SummitAmazon Web Services
 
Economia das APIs - Uma visão de negócios
Economia das APIs - Uma visão de negóciosEconomia das APIs - Uma visão de negócios
Economia das APIs - Uma visão de negóciosEdgar Silva
 
A culture of rapid innovation with DevOps, microservices, and serverless - MA...
A culture of rapid innovation with DevOps, microservices, and serverless - MA...A culture of rapid innovation with DevOps, microservices, and serverless - MA...
A culture of rapid innovation with DevOps, microservices, and serverless - MA...Amazon Web Services
 
Web APIs e dados abertos - API de Compras Governamentais
Web APIs e dados abertos - API de Compras GovernamentaisWeb APIs e dados abertos - API de Compras Governamentais
Web APIs e dados abertos - API de Compras Governamentaisnitaibezerra
 
Javascript State of the Union 2015
Javascript State of the Union 2015Javascript State of the Union 2015
Javascript State of the Union 2015Huge
 
Webinar Governo na Palma da Mão
Webinar Governo na Palma da MãoWebinar Governo na Palma da Mão
Webinar Governo na Palma da MãoRubens Souza
 
Visão Geral De Desenvolvimento Web Sre 2012
Visão Geral De Desenvolvimento Web   Sre 2012Visão Geral De Desenvolvimento Web   Sre 2012
Visão Geral De Desenvolvimento Web Sre 2012Carlos Casalicchio
 

Similaire à Dados públicos na marra (20)

AIML Reforçando a segurança virtual
AIML Reforçando a segurança virtualAIML Reforçando a segurança virtual
AIML Reforçando a segurança virtual
 
Processamento Dados em Escala com Serverless: Um Estudo de Caso da Amazon.com...
Processamento Dados em Escala com Serverless: Um Estudo de Caso da Amazon.com...Processamento Dados em Escala com Serverless: Um Estudo de Caso da Amazon.com...
Processamento Dados em Escala com Serverless: Um Estudo de Caso da Amazon.com...
 
Apresentação Isis 2015
Apresentação Isis 2015Apresentação Isis 2015
Apresentação Isis 2015
 
Performing real-time ETL into data lakes - ADB202 - São Paulo AWS Summit
Performing real-time ETL into data lakes - ADB202 - São Paulo AWS SummitPerforming real-time ETL into data lakes - ADB202 - São Paulo AWS Summit
Performing real-time ETL into data lakes - ADB202 - São Paulo AWS Summit
 
Cejs notificacoes html5
Cejs notificacoes html5Cejs notificacoes html5
Cejs notificacoes html5
 
Visão Geral sobre o Application Insights
Visão Geral sobre o Application InsightsVisão Geral sobre o Application Insights
Visão Geral sobre o Application Insights
 
AI & Big Data - Personalização da Jornada - PicPay - TDC
AI & Big Data - Personalização da Jornada - PicPay - TDCAI & Big Data - Personalização da Jornada - PicPay - TDC
AI & Big Data - Personalização da Jornada - PicPay - TDC
 
Hackers
HackersHackers
Hackers
 
DevDay 2017 - Belo Horizonte - Application Insights
DevDay 2017 - Belo Horizonte - Application InsightsDevDay 2017 - Belo Horizonte - Application Insights
DevDay 2017 - Belo Horizonte - Application Insights
 
Café com bpm recife palestra automação de processos - airton caetano
Café com bpm recife   palestra automação de processos - airton caetanoCafé com bpm recife   palestra automação de processos - airton caetano
Café com bpm recife palestra automação de processos - airton caetano
 
Como implantar transformações organizacionais a partir de uma plataforma de B...
Como implantar transformações organizacionais a partir de uma plataforma de B...Como implantar transformações organizacionais a partir de uma plataforma de B...
Como implantar transformações organizacionais a partir de uma plataforma de B...
 
Dados abertos no brasil
Dados abertos no brasilDados abertos no brasil
Dados abertos no brasil
 
Industry 4.0- Managing the protocol zoo - SVC204 - São Paulo AWS Summit
Industry 4.0- Managing the protocol zoo - SVC204 - São Paulo AWS SummitIndustry 4.0- Managing the protocol zoo - SVC204 - São Paulo AWS Summit
Industry 4.0- Managing the protocol zoo - SVC204 - São Paulo AWS Summit
 
Data Driven AI Company
Data Driven AI CompanyData Driven AI Company
Data Driven AI Company
 
Economia das APIs - Uma visão de negócios
Economia das APIs - Uma visão de negóciosEconomia das APIs - Uma visão de negócios
Economia das APIs - Uma visão de negócios
 
A culture of rapid innovation with DevOps, microservices, and serverless - MA...
A culture of rapid innovation with DevOps, microservices, and serverless - MA...A culture of rapid innovation with DevOps, microservices, and serverless - MA...
A culture of rapid innovation with DevOps, microservices, and serverless - MA...
 
Web APIs e dados abertos - API de Compras Governamentais
Web APIs e dados abertos - API de Compras GovernamentaisWeb APIs e dados abertos - API de Compras Governamentais
Web APIs e dados abertos - API de Compras Governamentais
 
Javascript State of the Union 2015
Javascript State of the Union 2015Javascript State of the Union 2015
Javascript State of the Union 2015
 
Webinar Governo na Palma da Mão
Webinar Governo na Palma da MãoWebinar Governo na Palma da Mão
Webinar Governo na Palma da Mão
 
Visão Geral De Desenvolvimento Web Sre 2012
Visão Geral De Desenvolvimento Web   Sre 2012Visão Geral De Desenvolvimento Web   Sre 2012
Visão Geral De Desenvolvimento Web Sre 2012
 

Dados públicos na marra