O documento discute os dados abertos e seu potencial para promover transparência e inovação. Apresenta conceitos como formatos abertos e exemplos de aplicações que utilizam dados públicos como o Basômetro, Para Onde Foi Meu Dinheiro e a Operação Serenata de Amor.
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
Dados Abertos: Oportunidades, Inovação e Transparência (2º Congresso Nacional de Informática 2017 - UNAMA/SER)
1. Dados Abertos:Dados Abertos:
Claudio Martins
Dados Abertos:Dados Abertos:
Oportunidades, Inovação eOportunidades, Inovação e
TransparênciaTransparência
1
2. Sobre o palestrante :
Claudio Roberto de Lima Martins
• Mestre em Ciência da Computação pela Universidade Federal do Rio Grande do
Sul (2003), especialista em Análise de Sistemas (1998), graduação em
Tecnologia em Processamento de Dados (1990). É professor do IFPA (Instituto
Federal de Educação, Ciência e Tecnologia do Pará) e analista de sistemas da
Companhia de Informática de Belém (Cinbesa). Dedica-se às área da Ciência da
Computação, em especial à engenharia de software e inteligência
computacional, atuando principalmente nos seguintes temas: extração de
2
computacional, atuando principalmente nos seguintes temas: extração de
conhecimento, sistemas de informação, engenharia de software, arquitetura de
software.
Lattes: http://lattes.cnpq.br/7014997829591968
LinkedIn: http://br.linkedin.com/in/claudiomartins2010
Email: claudiomartins2000@gmail.com
3. A palestra
• A palestra aborda o potencial dos Dados Abertos (open data) como
oportunidade tecnológica para promover a transparência e inovação no
relacionamento entre governos e a sociedade. Serão apresentados
conceitos, técnicas e ferramentas envolvidas no processo, e exemplos
de casos reais de aplicações com dados abertos, além de discutir asde casos reais de aplicações com dados abertos, além de discutir as
possibilidades, desafios e dificuldades presentes nesse ecossistema
digital.
3
4. O que são dados abertos?
• São dados que podem ser livremente
acessados, utilizados, modificados e
compartilhados por qualquer
pessoa, estando sujeito a, no
máximo, exigências que visem preservarmáximo, exigências que visem preservar
sua proveniência e abertura.
(Fonte: Open Knowledge)
4
5. O que são dados abertos?
Disponibilidade
e Acesso
Reuso e
redistribuição
Dados
Abertos
5
Participação
Universal
Abertos
6. Ecossistema de Dados Abertos
DadosDados
DadosDados
TecnologiaTecnologiaUsuáriosUsuários
6
Dados
Abertos
Dados
Abertos
Regras &
Padrões
Regras &
Padrões
StakeholdersStakeholders
RecursosRecursos
8. E.U.A. (https://www.data.gov/)
+190.000 conjuntos de dados
UNIÃO EUROPÉIA (http://www.europeandataportal.eu )
REINO UNIDO (https://data.gov.uk/ )
+40.000 conjuntos de dados
Oferta de Dados Governamentais (2016)
8
ÍNDIA (https://data.gov.in/)
+3.900 conjuntos de dados
BRASIL (http://dados.gov.br)
+1.150 conjuntos de dados
UNIÃO EUROPÉIA (http://www.europeandataportal.eu )
+630.000 conjuntos de dados
JAPÃO (http://www.data.go.jp/)
+17.000 conjuntos de dados
9. Dados Abertos Governamentais no Mundo (2015)
http://opendatabarometer.org/data-explorer/?_year=2015&indicator=ODB&lang=en 9
10. Legislação não é problema...
https://obamawhitehouse.archives.gov/the-press-
office/2013/05/09/executive-order-making-open-and-machine-readable-
new-default-government-
LAI: A Lei de Acesso à Informação do Brasil
http://www.planalto.gov.br/ccivil_03/_ato2011-2014/2011/lei/l12527.htm
10
11. Transparência “ativa”
• Independente da obrigação da lei, as entidades públicas
devem se antecipar aos pedidos e publicar seus dados e
informações na internet , usando preferencialmente
formatos abertos e não-proprietários.
• Canais usados:• Canais usados:
• Portais de transparência
• Catálogos de dados abertos
• Acesso dinâmico (API)
• Downloads de arquivos
11
12. O que é um formato aberto?
Para ser considerado aberto, todo dado público deve ser
completo, primário (sem tratamento), atual, compreensível por
máquina, não discriminatório, acessível, não proprietário e com
licenças não restritivas aos princípios e à liberdade de uso.
12
13. O que é um formato aberto?
Para quem desenvolve, “compreensível por máquina”
significa automatizar o processamento por algoritmos
para o cruzamento e o reuso dos dados.
13
14. Cuidado: Planilha não é um formato aberto!
Exemplo de arquivos em Planilha (XLS) apresentando os movimentos mensais das operações de
aeronaves, passageiros, carga e correios nos aeroportos administrados pela Infraero.
http://www4.infraero.gov.br/acesso-a-informacao/institucional/estatisticas/ 14
15. E no portal de
“Dados Abertos”...
PDF não é um formato aberto!
http://dados.gov.br/dataset/movimento-dos-aeroportos-administrados-pela-infraero
15
16. Esquema 5-Estrelas de Berners-Lee (2010)
BERNERS-LEE, T. Open, Linked Data for a Global Community. Gov 2.0 Expo. Washington. 2010. (http://5stardata.info/pt-BR/)
16
17. CSV (Comma-Separated Values)
CSV é um formato tabular, no qual os dados são
separados por vírgulas e linhas. São amplamente
usados na web e nos sites que disponibilizam dados.
17
18. XML (Extensible Markup Language)
XML é uma linguagem de marcação para descrever
os dados que representa. É amplamente utilizada
no intercâmbio de dados por meio da web.
18
19. JSON (JavaScript Object Notation)
JSON é um formato padrão no uso de dados na
web dinâmica e intercâmbio de dados, fácil de ler e
processar pelas linguagens de programação.
19
20. RDF (Resource Description Framework)
RDF viabiliza a web semântica e as aplicações de
dados “ligados” (Linked Data) na web. Útil na
construção de vocabulários e ontologias.
20
21. Realidade (baixa qualidade dos dados)
• Dados em formatos não processáveis por máquina (PDF, imagens...)
• +3/-4 Star: CSV, Excel, Txt delimitado, JSON, XML, shapes, etc.
• Metadados ausentes ou precários
Formatos do European Data Portal (2016)
1000
Formatos no portal dados.gov.br
(2016)
0
200
400
600
800
21
22. Realidade (baixa qualidade dos dados)
500
600
700
800
900
1000
22
(a) Formatos do European Data Portal (2016)
0
100
200
300
400
500
(b) Formatos do portal dados.gov.br (2016)
23. Onde estão e como obter dados abertos?
• As abordagens de publicação de dados abertos
governamentais utilizam:
• Acesso a dados gerados dinamicamente (sites de consulta a
dados, Portais de transparência)
• FTP e download de arquivos (CSV, Excel)• FTP e download de arquivos (CSV, Excel)
• Catálogos de Dados Abertos (usando ferramentas de
gerenciamento de conteúdo, ex: CKAN)
• APIs e acesso via serviços web (REST/SOAP)
• Pior caso: PDF e conteúdo embutido em HTML!
23
24. Ex. de dados dinâmicos: Sidra (IBGE)
https://sidra.ibge.gov.br
24
31. Painel de Monitoramento da Política de Dados Abertos do Poder
Executivo Federal
• O Painel de Monitoramento da Política de Dados Abertos do Poder
Executivo Federal permite que a população verifique se os órgãos da
administração federal estão cumprindo as disposições da Política de
Dados Abertos, instituída pelo Decreto 8777/2016, a partir da análise
dos seguintes aspectos:
• Publicação do Plano de Dados Abertos (PDA) em conformidade aos critérios• Publicação do Plano de Dados Abertos (PDA) em conformidade aos critérios
formais exigidos;
• Disponibilização das bases de dados no Portal Brasileiro de Dados
Abertos, conforme previsto nos cronogramas dos Planos de Dados Abertos
(PDA´s) dos órgãos.
31
34. Atividades na cadeia de dados abertos governamentais
Cadeia de possibilidades de atividades em dados abertos governamentais
http://ceweb.br/guias/incentivo-ao-reuso-de-dados-abertos//capitulo-1/ 34
35. Tecnologias envolvidas
• Data Scraping
• Mineração de dados
• Tratamento e processamento de formatos
• HTML (HiperText Markup Language)
• XML (Extensible Markup Language)• XML (Extensible Markup Language)
• CSV (Comma-Separated Values)
• RDF (Resource Description Framework)
• JSON (JavaScript Object Notation)
35
36. Data scraping (raspagem de dados)
• Técnica na qual um programa
extrai dados de saída legível
somente para
humanos, proveniente de um
serviço ou aplicativo na Web.serviço ou aplicativo na Web.
• Os dados extraídos geralmente
são minerados e estruturados
em um formato padrão como
CSV, XML ou JSON.
36
37. Exemplo de Ferramentas
• OpenRefine: É um software livre para limpar e vincular
diferentes bases de dados, permitindo criar formatos
RDF, triplas RDF e expor webServices .
• http://openrefine.org/
• Yahoo Query Language (YQL): plataforma do Yahoo! que
auxilia e facilita o mashup de dados. Com ele, consegue-se
ler e parsear tabelas HTML, XML, CSV e vários outros
formatos com alguma facilidade e em linguagem próxima
do SQL.
• https://developer.yahoo.com/yql/
37
38. Ferramentas, tecnologias, conhecimento...
• Ter habilidades e conhecimentos em diversas
tecnologias e ferramentas:
• Conhecer HTML5, CSS e manipulação de objetos DOM do
HTML.
• Linguagens de programação e pacotes específicos• Linguagens de programação e pacotes específicos
• Projeto R
• Python
• Pearl
• Java
• PHP
• etc
38
39. Exemplos de aplicações de dados abertos
• As aplicações que utilizam dados abertos são instrumentos
fundamentais para melhorar a leitura dos dados e criar novas
formas de visualização e geração de valor no processo de
compartilhamento das informações.
• A maioria das apps segue o modelo de “Mashup”• A maioria das apps segue o modelo de “Mashup”
• Mashup é uma página ou um serviço web que combina dados ou
código de duas ou mais fontes.
• Um mashup pode ser uma visualização, um infográfico, um serviço
em uma página ou um aplicativo para celular.
39
40. Basômetro: http://estadaodados.com/basometro/
O Basômetro mede o apoio dos parlamentares ao governo e acompanha como eles se
posicionaram nas votações legislativas.
Os votos dos parlamentares
foram obtidos nos sites da
Câmara dos Deputados e do
Senado.
40
41. Para onde foi o meu dinheiro
URL: http://www.paraondefoiomeudinheiro.com.br/
Dados utilizados: Despesas diretas do Executivo Federal (dados.gov.br)
E dados disponibilizados por diversos governos sobre a execução orçamentária 41
43. Ocorrências nas rodovias federais
43
http://analyticsmj.github.io/prf/
2º lugar no 2o Concurso de Aplicativos para Dados Abertos do Ministério da Justiça
utilizando dados abertos da Polícia Rodoviária Federal através do Portal dados.gov.br.
44. Mapa de ônibus de Fortaleza
44
http://tdurand.github.io/mapafortaleza/
45. http://www.precodoscombustiveis.com.br
Preço dos Combustíveis permite consultar preços praticado pelos postos no Brasil.
O sistema é atualizado semanalmente utilizando dados da Agência Nacional do
Petróleo, Gás Natural e Biocombustíveis (ANP).
45
53. Operação Serenata de Amor
A Operação Serenata de
Amor é um projeto de
inteligência artificial para
análise de gastos públicos
dos deputados do Congresso
Nacional brasileiro.
https://serenatadeamor.org/explore/
Nacional brasileiro.
O projeto é apoiado de forma
colaborativa, em um
financiamento coletivo
contínuo. O grupo também
divulga relatórios
mensais sobre a operação.
Início: 2016
53
54. Operação Serenata de Amor (processo)
Arquivo de notas fiscais de prestações de contas
http://www2.camara.leg.br/transparencia/cota-para-exercicio-da-atividade-parlamentar/dados-abertos-cota-parlamentar
O robô "Rosie“ identifica usos
ilegais da verba pública. É feita
uma varredura de gastos ilegais
de reembolsos de deputados.
Por último, é realizada uma análise
humana dos casos suspeitos para
que sejam feitas denúncias à
Câmara dos Deputados
CNPJ
54
55. Operação Serenata de Amor em números
Dados de novembro de 2016 até junho de 2017 da Operação Serenata de Amor
http://agenciabrasil.ebc.com.br/pesquisa-e-inovacao/noticia/2017-06/campus-party-entenda-operacao-serenata-de-amor 55
56. Open Data a partir de Plataformas Abertas e Crowdsourcing
Crowdsourcing é a contribuição colaborativa ou colaboração
coletiva na construção de informações compartilhadas.
O termo crowdsourcing (multidão como origem dos recursos), foi
cunhado por editores da revista Wired em 2005, adaptado
de outsourcing, ou terceirização.
MutirãoMutirãoMutirãoMutirão
CoCo--criaçãocriação
SocializaçãoSocialização
de outsourcing, ou terceirização.
56
58. API do Waze: https://developers.google.com/waze/
https://jsfiddle.net/cmartins99/ym2nsr8n/
58
59. OpenStreetMap
• OpenStreetMap (OSM) é um mapa colaborativo, aberto e
gratuito que tem o objetivo de disseminar informações
geográficas livres, para que as pessoas possam fazer uso
criativo destes dados, similar à ideia do Wikipedia.
• Para usar a API do OSM você deve escolher uma biblioteca• Para usar a API do OSM você deve escolher uma biblioteca
JavaScript para manipulação de mapas, como:
• OpenLayers – powerful and long-established
(http://openlayers.org/)
• Leaflet – lightweight and easy-to-learn (http://leafletjs.com/)
59
60. Exemplo de OSM incorporado na página
https://jsfiddle.net/cmartins99/smwcy7tt/
60
61. Monitor da Violência (Portal G1)
Parceria entre o
G1, o Núcleo de
Estudos da
Violência da USP
e o Fórum
http://especiais.g1.globo.com/monitor-da-violencia/2017/uma-semana-de-mortes-violentas-no-brasil/
e o Fórum
Brasileiro de
Segurança
Pública.
Reúne +200
pessoas...
61
62. Monitor da Violência (Portal G1) - Desafios
• Falta de transparência
• Boa parte das mortes só foi registrada pelas equipes do G1 após a semana analisada.
Isso porque vários casos foram conhecidos dias depois, quando os órgãos de
segurança divulgaram seus balanços mensais.
• Várias secretarias se negam a passar uma listagem das vítimas ou mesmo um dado
consolidado.
• O G1, então, faz cruzamento com fontes, policiais, sindicatos e com IMLs (Institutos• O G1, então, faz cruzamento com fontes, policiais, sindicatos e com IMLs (Institutos
de Medicina Legal) para chegar ao número final e contar todas as histórias.
• O trabalho mostra a falta de transparência de governos estaduais e revela uma total
ausência de padronização e de um sistema nacional que abranja homicídios e demais
mortes violentas.
• Um exemplo da dificuldade em obter estatísticas confiáveis são os casos de mortes
por policiais. Em alguns estados, eles entram na estatística como homicídios. Em
outros, são separados e constam como “confronto com a polícia”, “auto de
resistência” ou outra denominação diferente.
62
63. Considerações finais
• Há muitas barreiras a superar:
• Adesão (baixa) dos órgãos dos governos federal e locais (estadual/municipal) ao
movimento de dados abertos
• Baixa qualidade dos dados (em formatos, metadados e conteúdo)
• Nível de granularidade (detalhamento) alto (dados agregados prejudicam a análise e
cruzamento)
• Superar a cultura do sigilo• Superar a cultura do sigilo
• Dados desatualizados
• Sustentabilidade dos projetos e aplicativos cívicos
• Apesar das dificuldades, o movimento de dados abertos está evoluindo.
• Há oportunidades em projetos de tecnologias cívicas e criação de valor
social/comercial no uso dos dados abertos.
• Agora, é investigar as fontes de dados e propor novas aplicações sobre os
dados.
63
65. Referências
• Manual dos dados abertos : desenvolvedores / [cooperação técnica
científica entre Laboratório Brasileiro de Cultura Digital e o Núcleo de
Informação e Coordenação do Ponto BR (NIC.br)]. -- São Paulo : Comitê
Gestor da Internet no Brasil, 2011.
http://www.w3c.br/pub/Materiais/PublicacoesW3C/manual_dados_abertos_desenvolvedores_web.pdf
• Cartilha Técnica para Publicação de Dados Abertos no Brasil
v1.0. SLTI/Ministério do Planejamento. 2011. Em
• Cartilha Técnica para Publicação de Dados Abertos no Brasil
v1.0. SLTI/Ministério do Planejamento. 2011. Em
http://dados.gov.br/cartilha-publicacao-dados-abertos/
• Dados públicos – Blog sobre dados abertos. 2016. Em:
http://www.dadosaleatorios.com.br/2015/05/dados-publicos.html
65