Este documento discute a gestão de dados, privacidade e o Centro de Segurança na Direção-Geral de Estatísticas da Educação e Ciência. A DGEEC é responsável pela coleta, monitoramento, processamento e divulgação de dados estatísticos, sujeita à legislação de proteção de dados. O documento descreve o modelo implementado para garantir a privacidade dos dados, incluindo processos de qualidade de dados, anonimização e disponibilização segura de microdados para pesquisadores.
1. Data Management, Privacy and Safe Centre – “uma relação improvável”
Lisboa, 30 de maio 2019
Fernando Rui Campos – DPO- Direção-Geral de Estatísticas da Educação e Ciência
2. Page. 2
Introdução
A Direção-Geral de Estatísticas da Educação e Ciência é um serviço central da
administração direta do Estado, dotado de autonomia administrativa, que tem por missão
garantir a produção e análise estatística da educação e ciência, apoiando tecnicamente a
formulação de políticas e o planeamento estratégico e operacional, criar e assegurar o
bom funcionamento do sistema integrado de informação observar e avaliar globalmente
os resultados obtidos pelos sistemas educativo e científico e tecnológico, em articulação
com os demais serviços, encontrando-se na dependência do Ministro da Educação e do
Ministro da Ciência Tecnologia e Ensino Superior .
Contextualização
3. Page. 3
Introdução
A responsabilidade por parte da Direção-Geral de Estatísticas da Educação e Ciência em
garantir a recolha, monitorização, tratamento, produção e divulgação de informação
adequada (designadamente estatística).
Tem a recolha de dados de todas as escolas públicas que inclui a avaliação de alunos
menores de forma periódica.
A DGEEC é uma entidade com delegação de competências do Instituto Nacional de
Estatística e está sujeita ao Segredo Estatístico Nacional, entre outra legislação.
Ser uma entidade publica e com necessidade do cumprimento da Resolução do Conselho
de Ministros (RCM) n.º 41/2018, no que diz respeitos às orientações técnicas, como
adequação para o Regulamento Geral sobre a Proteção de Dados (RGPD) .
A DGEEC segue os normativos legais e as orientações emanadas da Secretaria-Geral da
Educação e Ciência no que se refere ao RGPD.
Contextualização
4. Page. 4
Introdução Representação simplificada de necessidades, metas e desafios
Múltiplos sistemas
Recolha estatística, Administrativa com
fins diferenciados
Variações nos registos no
mesmo ano devido aos
múltiplos sistemas
Variações nos registos ao
longo dos anos
Volumetria de registos
> 1,5 mil milhões e tempo
processamento < 24horas
Múltiplos utilizadores da informação
com necessidades específicas em
departamentos e equipas
diferenciadas na organização
Diferentes níveis de sensibilização
para a temática da privacidade na
organização
Necessidades específicas
de investigadores nas
diferentes áreas de
governação - SafeCentre
Contributos para a
qualidade
Melhoria da proteção de
dados e da qualidade dos
dados a disponibilizar
Investigadores (Microdados)
Inclusão de métricas de
risco de privacidade para as
tabelas e microdados
Existência de múltiplos
formatos e tempos de
processamento elevados
monitorização Risco
privacidade
5. Page. 5
Introdução Resumo da preparação prévia – DGEEC
1. Estudo e criação de modelo a implementar que inclua governação, processamento, anonimização e
disponibilização de resultados e DataSets para investigadores (Safe Centre) [2016-2017].
2. Testes de todas as fases de modelo em várias aplicações Open Source e sistema de agregação –
(levantamento de métricas para comparação na Prova de Conceito)[out 2016 – mar 2017].
3. Documento sobre métodos e ferramentas de anonimização, incluindo testes preliminares com dados reais
[2017-2018].
4. Elaboração de documento com impacto esperado do RGPD na DGEEC, incluindo a elaboração de
documentação específica para a estatística e a organização [fev 2017- nov 2017].
5. Levantamento de todos os ativos com dados pessoais e criada instrumentação específica [abri 2017-julho
2017].
6. Análise de Gap do RGPD (onde estamos e o que é necessário fazer)[out 2017-dez 2017].
7. Organização de documentação específica da área da Educação, para integrar modelo proposto de
governação de dados [2018].
8. Documentação com classificação de variáveis de privacidade de acordo com classificação usada em
estatística[2017-2018] .
9. Criação de plano de maturidade gradual para implementação de conformidade RGPD, na DGEEC, plano 2
anos.
10. Organização de workshops específicos por departamento, na área da privacidade [jan 2018 – mar 2018].
7. Abordagem
Pág. 15
Data Quality & Safe
Centre
Monitorização de
Recolhas de acordo
com indicadores
privacidade
Visualização &
Exploração
(Visual Analytics &
Statistics)
Gestão Risco &
Compliance RGPD
(RCM 41/2018)
Proteção de Dados
Modelo global da abordagem
A melhoria na qualidade, gestão e risco de privacidade acompanha os processos
Onde estamos
8. Abordagem
Pág. 15
Data Quality & Safe
Centre
Monitorização de
Recolhas com
indicadores privacidade
Visualização &
Exploração
(Visual Analytics &
Statistics)
Gestão Risco &
Compliance RGPD
(RCM 41/2018)
Copyright : Alguns das imagens podem conter direitos de autor dos respetivos fabricantes
9. Abordagem
Pág. 15
A Gestão de Dados, concretiza o processo desde a recolha até à sua disponibilização de
acordo com as suas diferentes formas e diferentes públicos – alvo. Os mecanismos
implementados e os respetivos processos pretendem responder aos princípios de
privacidade por desenho, (privacy by design).
O modelo inicial testado anteriormente através da realização de uma prova de conceito,
implementa o fluxo de dados desde as diferentes fontes ao modelo final a disponibilizar,
tendo em conta aspetos de agregação, normalização e diferentes níveis de anonimização
dos dados, de acordo com as finalidades.
Bases de Dados
…
Fonte de Dados
…
Processos de Qualidade de Dados
Profiling
Validação
Normalização
Integração
Disponibilização …
Proteção
Anonimização
Validação
…
Exploração
…
Avaliação de
Risco
Impacto
Privilégios
Controlo de
Acessos
Reporting
Gestão de Dados
10. Abordagem
Pág. 15
Fonte de Dados Processos de Qualidade de Dados
• Validação
• Normalização
• Integração
• Disponibilização
• Anonimização
Avaliação de Risco
Análise de Impacto
Profiling & Monitorização
Privilégios
Controlo de Acessos
…
Bases de Dados
…
Profiling
Validação
NormalizaçãoIntegração
Monitorização
Base de Dados GDPEF Dashboards
ZONA VERMELHA ZONA AMARELA ZONA VERDE
• Base de Dados Consulta
• Formato BD e datasets
• Metainformação e DDI
• Portal de publicação
• Visualização
• Dashboards
Critérios de seleção
de microdados
Profiling & Monitorização
Controlo de Acessos
Critérios de validação e agregação
Técnicas de anonimização
Especificação harmonização de variáveis
Definição de uso de dados pessoais
Definição de metainformação
Critérios de disponibilização
Autorização de acessos a dados
Definição de
metainformação de dados
disponíveis
Definição de privilégios
• Sistemas
• Estatística oficial
• Investigadores
• Outros inquéritos
• Outras fontes
11. Abordagem
Pág. 15
Fonte de Dados
…
Bases de Dados
ZONA VERMELHA Zona Vermelha
A zona vermelha inclui os dados originais dos sistemas de
recolha para fins inicialmente administrativos e das recolhas
estatísticas ou de estudos da DGEEC.
Representam os dados no seu estado original e onde são
analisadas as variáveis de privacidade e a monitorização do
risco de privacidade. Para alem de bases de dados, podem
existir dados com dados pessoais em formatos diferentes,
nomeadamente de folha de cálculo.
12. Abordagem
Pág. 15
Processos de Qualidade de Dados
• Validação
• Normalização
• Integração
• Disponibilização
• Anonimização
• Encriptação (parcial)
Profiling
Validação
NormalizaçãoIntegração
Monitorização
ZONA AMARELA Zona Amarela
A zona amarela é a zona de trabalho do sistema.
Os dados são obtidos sob a forma original, com dados
pessoais visíveis.
Nesta zona, são
• analisados,
• integrados,
• normalizados,
• anonimizados (com encriptação nalguns casos e
nas respetivas variáveis),
• Webservice(s) de consulta mediante segurança
definida,
• disponibilizados de forma coerente e controlada.
13. Abordagem
Pág. 15
…
Base de Dados GDPEF Dashboards
ZONA VERDE
• Base de Dados Consulta
• Formato BD e datasets
• Metainformação e DDI
• Portal de publicação
• Visualização
• Dashboards
Zona Verde
Na zona verde os dados ficam disponíveis para
exploração através de acesso à base de dados.
Não existem dados pessoais publicados – cada entidade
é representada por um código.
A metainformação das tabelas disponíveis é visível
através de relatório no portal + DDI.
O acesso é controlado por matriz de segurança – grupo
de utilizadores/permissões.
O portal é organizado por áreas de acesso, tendo o EPD/
DPO relatórios específicos dos dataSets, assim como de
todas as recolhas da zona vermelha (i.e. sistemas
internos e disponibilização externa).
15. Tecnologia
Pág. 15
A componente de qualidade de dados usada incluí uma solução corporativa para Profiling,
Limpeza, Integração e Enriquecimento de dados.
Metodologia Data Quality
Exemplo de metodologia
16. Tecnologia
Pág. 16
Um dos componentes utilizado foi a solução de Data Quality corporativa para Gestão e
Tratamento de Dados.
Ferramentas de Gestão de dados
19. Processos de Qualidade de Dados
Pág. 19
Data Profiling
A análise da qualidade dos dados, antes durante e depois dos processos é importante para
melhor adequação dos processos de normalização e integração de dados.
20. Processos de Qualidade de Dados
Pág. 20
Processos ETL (Extract, Transform and Load)
Os dados obtidos a parir das fontes (Extract) por acesso integral às tabelas ou via query,
incluindo possíveis transformações e produzindo uma nova configuração disponível para
carregar em uma ou várias tabelas de base de dados.
Os tipos de fontes é diverso e vai de ficheiros em formato csv, xls e Base de dados SQL de
fabricantes como Microsoft e ORACLE.
No exemplo, os dados são obtidos de diferentes bases de dados e integrados num comum
(unions) e entregues numa tabela final .
21. Processos de Qualidade de Dados
Pág. 21
Glossário de Termos
Definição dos termos de negócio associados à Educação,
Associação da classificação de nivel de privacidade variáveis através do campo
“Importância”.
Governação de dados
22. Processos de Qualidade de Dados
Pág. 22
Data Lineage
Associação de termos de negócio a itens concretos:
Servidores,
Aplicações,
Bases de Dados,
Tabelas,
Campos,
Processos,
…
Governação de dados
23. Processos de Qualidade de Dados
Pág. 23
Data Lineage – Análise de Impacto
A partir de um termo de negócio, identificar
os itens relacionados e respetiva utilização.
A alteração de um termo, respetivas regras
ou definição tem impacto nos respetivos
itens associados.
24. Processos de Qualidade de Dados
Pág. 24
Submissão de registo(s) de entidade(s) obtendo-se informação de negócio associada às
mesmas.
Webservice de Consulta
25. CC BY SA Privacy by Nick Youngson CC BY-SA 3.0 Alpha Stock Images
Privacidade
26. Proteção de Dados
Pág. 26
A partir das bases de dados MetaPrivacidade e Consentimentos, utilizando a classificação
de varáveis na governação, quanto à criticidade de privacidade, ficam publicados na
interface de visualização um conjunto de dashboards para acompanhamento dos
indicadores de privacidade:
• KPIs Estado das Recolhas, Estado da MetaPrivacidade
• Análise de Risco MicroDados e Recolhas
• Monitorização de registos de acesso consentimentos
• Estado das recolhas e AIPD
• KPIs Privacidade
Privacidade
27. Proteção de Dados
Pág. 27
Ferramenta interna desenvolvida pela DGEEC a partir de especificação de metadados no âmbito da privacidade
Ponto de partida para a criação da lógica de criação do ambiente de monitorização dos dados pessoais
Metaprivacidade (metadados&privacidade)
28. Proteção de Dados
Pág. 28
Safe Centre - Investigadores
Processo genérico da
aplicação da anonimização
de microdados - DataSets
Investigadores
Fonte: “Introduction to Statistical
Disclosure Control (SDC ).”
IHSN Working Paper No. 007 (2014).
29. Proteção de Dados
Pág. 29
Safe Centre - Investigadores
Preparação dos dados
Supressão de variáveis
identificadoras
Identificação de variáveis
quase-identificadoras
Transformação prévia de
variáveis quase-
identificadoras com grande
dispersão de valores
Integração no sdcMicro
Importação dos
microdados para R
Criação do objeto SDC
associado com base na
identificação de variáveis
efetuada anteriormente
Avaliação do risco inerente
aos dados
Transformação no sdcMicro
Execução de estratégias de
mitigação de risco
Avaliação da evolução do
risco e da perda de
informação
Exportação dos dados
protegidos
Três fases principais: uma primeira fase de preparação dos dados e identificação de
variáveis relevantes de privacidade; uma segunda fase de integração da informação
no sdcMicro+R e respetiva avaliação de risco de reidentificação; e a execução de
transformações sobre os dados com vista à sua proteção (anonimização).
34. Projeto
Pág. 34
Milestones
Data Plano
Estimadas
Estado Entregáveis
Instalação software Out’ 2018 Executado
Doc: Guia de
Operação –
Instalação/Manu
tenção
Doc: Plano de
Testes e
Aceitação
Doc: Manual de
Operações
Análise de Fontes de Dados, Regras e
Modelos de Dados
Desenho de processos DQ e Modelo(s)
GDPEF
Análise de primitivas e regras de
Privacidade
Out/Nov’ 2018 Executado
Processos ETL, Data Quality
Nov/Dez’2018 Desenvolvimento
Processos Privacidade
Visualização de resultados: reports e
dashboards
Validação de Resultados
(deploy consecutivo)
Dez’2018
Planeado
Formação
Jan’2019
Documentação
35. Projeto
Pág. 35
Out’18 Nov’18 Dez’18 Jan’19 (1ª
Quinzena)
• Instalação software
• Análise de Fontes de Dados,
Regras e Modelos de Dados
• Desenho de processos DQ e
Modelo(s)
• Análise de primitivas e
regras de Privacidade
• Processos ETL, Data Quality
• Processos Privacidade
• Visualização de resultados: reports e
dashboards
• Formação
• Documentação
Doc: Manual Operação
Solução
Doc: Plano Testes/Aceitação
Plano Projeto – Esquema Calendário
Manual Instalação/Conf
36. Projeto
Pág. 36
Assunto Nº sessões/workshops
Data Quality & Governance (DataFlux)
8
Statistical Disclosure Control - Micro & Table Data
10
Apoio à Produção de Dados Estatística Oficial – Ensino Superior
12
Apoio à Produção de Dados Estatística Oficial – Ensino Básico e Secundário
8
Visual Analytics Administration and Reporting
4
Gestão da mudança
Número de pessoas envolvidas na organização – 40
Duração média de cada workshop – 2 horas
Sessões específicas por subgrupos de acordo com a especificidade do
trabalho a desenvolver
WorkShops – Realizadas nas instalações da DGEEC
37. Projeto
Pág. 37
Gestão da mudança
Reuniões diárias de acompanhamento por parte do Gestor de
contrato e de projeto, com o integrador.
Acompanhamento próximo dos utilizadores das ferramentas de
acordo com a solução, pós formação.
Workshops desenhados de acordo com os dados relevantes e
enquadrados na atividade profissional diária/periódica dos
utilizadores.
Compromisso por parte da Direção e dirigentes .
Como ?
38. Projeto
Pág. 38
SponsorG.Projeto
Equipae
utilizadoreschave
Fernando Campos (GP & GC)
Luísa Loura
Teresa Evaristo, João Batista
Jorge Teixeira
Miguel Dinis
Isaque Gomes
Jorge Pinto
(IT)
Luis Martinho
(BD)
Joana Duarte
Ricardo Santos
Catarina Afflalo
(Estudos)
Nuno
Rodrigues
Carlos Malaca
Marta Oliveira
…
(Ens.Superior)
Alexandre
Paredes
Filomena
Oliveira
(Ciência e
Tecnologia)
Nuno
Rodrigues
Joaquim
Santos
Rui Mestre
(Ensino Básico
Secundário)
Paula
Ferreira
(Formação
- SIGO)
Equipas de Projeto da DGEEC
40. Visualização/Reporting
Pág. 7
Acesso a grandes
volumes de dados
Juntar tabelas, filtrar
dados e calcular
colunas
Descobrir e explorar
relações entre
variáveis
Visuais que incluem
previsão, correlações,
box plots, heatmaps,
gráficos , apresentação
geográfica
Capacidade para
trabalhar com
modelação de
classificação usando
regressão logística e
árvores de decisão
Segmentação
orientada por dados
usando clustering
Criar relatórios ou
painéis personalizados
por meio de uma
interface de arrastar e
soltar
Aceder aos relatórios /
painéis existentes
através de seus
dispositivos móveis
(tablets)
Aceder aos relatórios /
painéis existentes
através das aplicações
office
PLATAFORMA VISUALIZAÇÃO
Fonte: Sistema da DGEEC Visualização e reporting
42. Visualização/Reporting
Pág. 7
Exemplo de exercício desenvolvido durante WorkShops
Vista mascarada a partir de dados reais – Zona verde – Dados pessoais inexistentes (anonimização DataSet)
(VisualAnalytics&Statistics)
43. Referências
Campos,F. . DataQuality – Componentes Percursos Educativos e Formativos, 2018. Documentos não publicados.
Direção-Geral de Estatísticas da Educação e Ciência.
Campos, F. . Técnicas Anonimização Microdados, 2017. Manuscrito não publicado. Direção-Geral de Estatísticas da Educação e Ciência.
Campos, F. . Safe Centre Investigadores, 2017 . Manuscrito não publicado. Direção-Geral de Estatísticas da Educação e Ciência.
A. Kowarik, M. Templ, B. Meindl, and F. Fonteneau. sdcMicroGUI: Statistical Disclosure Control for Micro-Data
Using the R Package sdcMicro.
M. Templ, A. Kowarik, and B. Meindl. sdcMicro: Statistical Disclosure Control methods for the generation of
public- and scientific-use files. Manual and Package., 2013. URL http://CRAN.R-roject.org/package=sdcMicro.
R package version 4.1.1.
M. Templ, B. Meindl and A. Kowarik : Introduction to Statistical Disclosure Control (SDC).
https://www.data-analysis.at/de_DE/geheimhaltung/.
A. Gregory. The Data Documentation Initiative (DDI): An Introduction for National Statistical Institutes,
2011. Open Data Foundation.
DDI Alliance. DDI specification, 2018. URL http://www.ddialliance.org/specification
SAS. SAS Data Quality, 2018. URL https://www.sas.com/en_us/software/data-quality.html
Campos,F. , Santos, J. , Malaca, C. . Harmonização variáveis de microdados, 2017. Manuscrito não publicado.
Direção-Geral de Estatísticas da Educação e Ciência.
Campos, F. (org.) . Lista de variáveis chave privacidade, 2018. Documento não publicado. Direção-Geral de Estatísticas da Educação e Ciência.
43