SlideShare une entreprise Scribd logo
1  sur  43
Télécharger pour lire hors ligne
Data Management, Privacy and Safe Centre – “uma relação improvável”
Lisboa, 30 de maio 2019
Fernando Rui Campos – DPO- Direção-Geral de Estatísticas da Educação e Ciência
Page. 2
Introdução
A Direção-Geral de Estatísticas da Educação e Ciência é um serviço central da
administração direta do Estado, dotado de autonomia administrativa, que tem por missão
garantir a produção e análise estatística da educação e ciência, apoiando tecnicamente a
formulação de políticas e o planeamento estratégico e operacional, criar e assegurar o
bom funcionamento do sistema integrado de informação observar e avaliar globalmente
os resultados obtidos pelos sistemas educativo e científico e tecnológico, em articulação
com os demais serviços, encontrando-se na dependência do Ministro da Educação e do
Ministro da Ciência Tecnologia e Ensino Superior .
Contextualização
Page. 3
Introdução
 A responsabilidade por parte da Direção-Geral de Estatísticas da Educação e Ciência em
garantir a recolha, monitorização, tratamento, produção e divulgação de informação
adequada (designadamente estatística).
 Tem a recolha de dados de todas as escolas públicas que inclui a avaliação de alunos
menores de forma periódica.
 A DGEEC é uma entidade com delegação de competências do Instituto Nacional de
Estatística e está sujeita ao Segredo Estatístico Nacional, entre outra legislação.
 Ser uma entidade publica e com necessidade do cumprimento da Resolução do Conselho
de Ministros (RCM) n.º 41/2018, no que diz respeitos às orientações técnicas, como
adequação para o Regulamento Geral sobre a Proteção de Dados (RGPD) .
 A DGEEC segue os normativos legais e as orientações emanadas da Secretaria-Geral da
Educação e Ciência no que se refere ao RGPD.
Contextualização
Page. 4
Introdução Representação simplificada de necessidades, metas e desafios
Múltiplos sistemas
Recolha estatística, Administrativa com
fins diferenciados
Variações nos registos no
mesmo ano devido aos
múltiplos sistemas
Variações nos registos ao
longo dos anos
Volumetria de registos
> 1,5 mil milhões e tempo
processamento < 24horas
Múltiplos utilizadores da informação
com necessidades específicas em
departamentos e equipas
diferenciadas na organização
Diferentes níveis de sensibilização
para a temática da privacidade na
organização
Necessidades específicas
de investigadores nas
diferentes áreas de
governação - SafeCentre
Contributos para a
qualidade
Melhoria da proteção de
dados e da qualidade dos
dados a disponibilizar
Investigadores (Microdados)
Inclusão de métricas de
risco de privacidade para as
tabelas e microdados
Existência de múltiplos
formatos e tempos de
processamento elevados
monitorização Risco
privacidade
Page. 5
Introdução Resumo da preparação prévia – DGEEC
1. Estudo e criação de modelo a implementar que inclua governação, processamento, anonimização e
disponibilização de resultados e DataSets para investigadores (Safe Centre) [2016-2017].
2. Testes de todas as fases de modelo em várias aplicações Open Source e sistema de agregação –
(levantamento de métricas para comparação na Prova de Conceito)[out 2016 – mar 2017].
3. Documento sobre métodos e ferramentas de anonimização, incluindo testes preliminares com dados reais
[2017-2018].
4. Elaboração de documento com impacto esperado do RGPD na DGEEC, incluindo a elaboração de
documentação específica para a estatística e a organização [fev 2017- nov 2017].
5. Levantamento de todos os ativos com dados pessoais e criada instrumentação específica [abri 2017-julho
2017].
6. Análise de Gap do RGPD (onde estamos e o que é necessário fazer)[out 2017-dez 2017].
7. Organização de documentação específica da área da Educação, para integrar modelo proposto de
governação de dados [2018].
8. Documentação com classificação de variáveis de privacidade de acordo com classificação usada em
estatística[2017-2018] .
9. Criação de plano de maturidade gradual para implementação de conformidade RGPD, na DGEEC, plano 2
anos.
10. Organização de workshops específicos por departamento, na área da privacidade [jan 2018 – mar 2018].
Public domain pictures
Abordagem
Abordagem
Pág. 15
Data Quality & Safe
Centre
Monitorização de
Recolhas de acordo
com indicadores
privacidade
Visualização &
Exploração
(Visual Analytics &
Statistics)
Gestão Risco &
Compliance RGPD
(RCM 41/2018)
Proteção de Dados
Modelo global da abordagem
A melhoria na qualidade, gestão e risco de privacidade acompanha os processos
Onde estamos
Abordagem
Pág. 15
Data Quality & Safe
Centre
Monitorização de
Recolhas com
indicadores privacidade
Visualização &
Exploração
(Visual Analytics &
Statistics)
Gestão Risco &
Compliance RGPD
(RCM 41/2018)
Copyright : Alguns das imagens podem conter direitos de autor dos respetivos fabricantes
Abordagem
Pág. 15
A Gestão de Dados, concretiza o processo desde a recolha até à sua disponibilização de
acordo com as suas diferentes formas e diferentes públicos – alvo. Os mecanismos
implementados e os respetivos processos pretendem responder aos princípios de
privacidade por desenho, (privacy by design).
O modelo inicial testado anteriormente através da realização de uma prova de conceito,
implementa o fluxo de dados desde as diferentes fontes ao modelo final a disponibilizar,
tendo em conta aspetos de agregação, normalização e diferentes níveis de anonimização
dos dados, de acordo com as finalidades.
Bases de Dados
…
Fonte de Dados
…
Processos de Qualidade de Dados
 Profiling
 Validação
 Normalização
 Integração
 Disponibilização …
Proteção
 Anonimização
Validação
…
Exploração
…
Avaliação de
 Risco
 Impacto
 Privilégios
 Controlo de
Acessos
 Reporting
Gestão de Dados
Abordagem
Pág. 15
Fonte de Dados Processos de Qualidade de Dados
• Validação
• Normalização
• Integração
• Disponibilização
• Anonimização
 Avaliação de Risco
 Análise de Impacto
 Profiling & Monitorização
 Privilégios
 Controlo de Acessos
…
Bases de Dados
…
Profiling
Validação
NormalizaçãoIntegração
Monitorização
Base de Dados GDPEF Dashboards
ZONA VERMELHA ZONA AMARELA ZONA VERDE
• Base de Dados Consulta
• Formato BD e datasets
• Metainformação e DDI
• Portal de publicação
• Visualização
• Dashboards
Critérios de seleção
de microdados
 Profiling & Monitorização
 Controlo de Acessos
Critérios de validação e agregação
Técnicas de anonimização
Especificação harmonização de variáveis
Definição de uso de dados pessoais
Definição de metainformação
Critérios de disponibilização
Autorização de acessos a dados
Definição de
metainformação de dados
disponíveis
Definição de privilégios
• Sistemas
• Estatística oficial
• Investigadores
• Outros inquéritos
• Outras fontes
Abordagem
Pág. 15
Fonte de Dados
…
Bases de Dados
ZONA VERMELHA Zona Vermelha
A zona vermelha inclui os dados originais dos sistemas de
recolha para fins inicialmente administrativos e das recolhas
estatísticas ou de estudos da DGEEC.
Representam os dados no seu estado original e onde são
analisadas as variáveis de privacidade e a monitorização do
risco de privacidade. Para alem de bases de dados, podem
existir dados com dados pessoais em formatos diferentes,
nomeadamente de folha de cálculo.
Abordagem
Pág. 15
Processos de Qualidade de Dados
• Validação
• Normalização
• Integração
• Disponibilização
• Anonimização
• Encriptação (parcial)
Profiling
Validação
NormalizaçãoIntegração
Monitorização
ZONA AMARELA Zona Amarela
A zona amarela é a zona de trabalho do sistema.
Os dados são obtidos sob a forma original, com dados
pessoais visíveis.
Nesta zona, são
• analisados,
• integrados,
• normalizados,
• anonimizados (com encriptação nalguns casos e
nas respetivas variáveis),
• Webservice(s) de consulta mediante segurança
definida,
• disponibilizados de forma coerente e controlada.
Abordagem
Pág. 15
…
Base de Dados GDPEF Dashboards
ZONA VERDE
• Base de Dados Consulta
• Formato BD e datasets
• Metainformação e DDI
• Portal de publicação
• Visualização
• Dashboards
Zona Verde
Na zona verde os dados ficam disponíveis para
exploração através de acesso à base de dados.
Não existem dados pessoais publicados – cada entidade
é representada por um código.
A metainformação das tabelas disponíveis é visível
através de relatório no portal + DDI.
O acesso é controlado por matriz de segurança – grupo
de utilizadores/permissões.
O portal é organizado por áreas de acesso, tendo o EPD/
DPO relatórios específicos dos dataSets, assim como de
todas as recolhas da zona vermelha (i.e. sistemas
internos e disponibilização externa).
TECNOLOGIA
CC license Flickr author tec_estromberg
Tecnologia
Tecnologia
Pág. 15
A componente de qualidade de dados usada incluí uma solução corporativa para Profiling,
Limpeza, Integração e Enriquecimento de dados.
Metodologia Data Quality
Exemplo de metodologia
Tecnologia
Pág. 16
Um dos componentes utilizado foi a solução de Data Quality corporativa para Gestão e
Tratamento de Dados.
Ferramentas de Gestão de dados
Tecnologia
Pág. 17
Tecnologia envolvida no projeto
Copyright – os logos apresentados têm direitos de autor dos respetivos fabricantes
PROCESSOS DE
QUALIDADE DE
DADOS
CC0 Wikipedia
Processos de
qualidade de
dados
Processos de Qualidade de Dados
Pág. 19
Data Profiling
A análise da qualidade dos dados, antes durante e depois dos processos é importante para
melhor adequação dos processos de normalização e integração de dados.
Processos de Qualidade de Dados
Pág. 20
Processos ETL (Extract, Transform and Load)
Os dados obtidos a parir das fontes (Extract) por acesso integral às tabelas ou via query,
incluindo possíveis transformações e produzindo uma nova configuração disponível para
carregar em uma ou várias tabelas de base de dados.
Os tipos de fontes é diverso e vai de ficheiros em formato csv, xls e Base de dados SQL de
fabricantes como Microsoft e ORACLE.
No exemplo, os dados são obtidos de diferentes bases de dados e integrados num comum
(unions) e entregues numa tabela final .
Processos de Qualidade de Dados
Pág. 21
Glossário de Termos
Definição dos termos de negócio associados à Educação,
Associação da classificação de nivel de privacidade variáveis através do campo
“Importância”.
Governação de dados
Processos de Qualidade de Dados
Pág. 22
Data Lineage
Associação de termos de negócio a itens concretos:
Servidores,
Aplicações,
Bases de Dados,
Tabelas,
Campos,
Processos,
…
Governação de dados
Processos de Qualidade de Dados
Pág. 23
Data Lineage – Análise de Impacto
A partir de um termo de negócio, identificar
os itens relacionados e respetiva utilização.
A alteração de um termo, respetivas regras
ou definição tem impacto nos respetivos
itens associados.
Processos de Qualidade de Dados
Pág. 24
Submissão de registo(s) de entidade(s) obtendo-se informação de negócio associada às
mesmas.
Webservice de Consulta
CC BY SA Privacy by Nick Youngson CC BY-SA 3.0 Alpha Stock Images
Privacidade
Proteção de Dados
Pág. 26
A partir das bases de dados MetaPrivacidade e Consentimentos, utilizando a classificação
de varáveis na governação, quanto à criticidade de privacidade, ficam publicados na
interface de visualização um conjunto de dashboards para acompanhamento dos
indicadores de privacidade:
• KPIs Estado das Recolhas, Estado da MetaPrivacidade
• Análise de Risco MicroDados e Recolhas
• Monitorização de registos de acesso consentimentos
• Estado das recolhas e AIPD
• KPIs Privacidade
Privacidade
Proteção de Dados
Pág. 27
Ferramenta interna desenvolvida pela DGEEC a partir de especificação de metadados no âmbito da privacidade
 Ponto de partida para a criação da lógica de criação do ambiente de monitorização dos dados pessoais
Metaprivacidade (metadados&privacidade)
Proteção de Dados
Pág. 28
Safe Centre - Investigadores
Processo genérico da
aplicação da anonimização
de microdados - DataSets
Investigadores
Fonte: “Introduction to Statistical
Disclosure Control (SDC ).”
IHSN Working Paper No. 007 (2014).
Proteção de Dados
Pág. 29
Safe Centre - Investigadores
Preparação dos dados
Supressão de variáveis
identificadoras
Identificação de variáveis
quase-identificadoras
Transformação prévia de
variáveis quase-
identificadoras com grande
dispersão de valores
Integração no sdcMicro
Importação dos
microdados para R
Criação do objeto SDC
associado com base na
identificação de variáveis
efetuada anteriormente
Avaliação do risco inerente
aos dados
Transformação no sdcMicro
Execução de estratégias de
mitigação de risco
Avaliação da evolução do
risco e da perda de
informação
Exportação dos dados
protegidos
Três fases principais: uma primeira fase de preparação dos dados e identificação de
variáveis relevantes de privacidade; uma segunda fase de integração da informação
no sdcMicro+R e respetiva avaliação de risco de reidentificação; e a execução de
transformações sobre os dados com vista à sua proteção (anonimização).
MONITORIZAÇÃO
Monitorizar
Monitorizar
Pág. 31
1
1
2
2
Monitorizar
Pág. 32
Informação Agregada
Projeto
Wikimeia Commons Agile Project Management
Projeto
Projeto
Pág. 34
Milestones
Data Plano
Estimadas
Estado Entregáveis
Instalação software Out’ 2018 Executado
Doc: Guia de
Operação –
Instalação/Manu
tenção
Doc: Plano de
Testes e
Aceitação
Doc: Manual de
Operações
Análise de Fontes de Dados, Regras e
Modelos de Dados
Desenho de processos DQ e Modelo(s)
GDPEF
Análise de primitivas e regras de
Privacidade
Out/Nov’ 2018 Executado
Processos ETL, Data Quality
Nov/Dez’2018 Desenvolvimento
Processos Privacidade
Visualização de resultados: reports e
dashboards
Validação de Resultados
(deploy consecutivo)
Dez’2018
Planeado
Formação
Jan’2019
Documentação
Projeto
Pág. 35
Out’18 Nov’18 Dez’18 Jan’19 (1ª
Quinzena)
• Instalação software
• Análise de Fontes de Dados,
Regras e Modelos de Dados
• Desenho de processos DQ e
Modelo(s)
• Análise de primitivas e
regras de Privacidade
• Processos ETL, Data Quality
• Processos Privacidade
• Visualização de resultados: reports e
dashboards
• Formação
• Documentação
Doc: Manual Operação
Solução
Doc: Plano Testes/Aceitação
Plano Projeto – Esquema Calendário
Manual Instalação/Conf
Projeto
Pág. 36
Assunto Nº sessões/workshops
Data Quality & Governance (DataFlux)
8
Statistical Disclosure Control - Micro & Table Data
10
Apoio à Produção de Dados Estatística Oficial – Ensino Superior
12
Apoio à Produção de Dados Estatística Oficial – Ensino Básico e Secundário
8
Visual Analytics Administration and Reporting
4
Gestão da mudança
 Número de pessoas envolvidas na organização – 40
 Duração média de cada workshop – 2 horas
 Sessões específicas por subgrupos de acordo com a especificidade do
trabalho a desenvolver
WorkShops – Realizadas nas instalações da DGEEC
Projeto
Pág. 37
Gestão da mudança
 Reuniões diárias de acompanhamento por parte do Gestor de
contrato e de projeto, com o integrador.
 Acompanhamento próximo dos utilizadores das ferramentas de
acordo com a solução, pós formação.
 Workshops desenhados de acordo com os dados relevantes e
enquadrados na atividade profissional diária/periódica dos
utilizadores.
 Compromisso por parte da Direção e dirigentes .
Como ?
Projeto
Pág. 38
SponsorG.Projeto
Equipae
utilizadoreschave
Fernando Campos (GP & GC)
Luísa Loura
Teresa Evaristo, João Batista
Jorge Teixeira
Miguel Dinis
Isaque Gomes
Jorge Pinto
(IT)
Luis Martinho
(BD)
Joana Duarte
Ricardo Santos
Catarina Afflalo
(Estudos)
Nuno
Rodrigues
Carlos Malaca
Marta Oliveira
…
(Ens.Superior)
Alexandre
Paredes
Filomena
Oliveira
(Ciência e
Tecnologia)
Nuno
Rodrigues
Joaquim
Santos
Rui Mestre
(Ensino Básico
Secundário)
Paula
Ferreira
(Formação
- SIGO)
Equipas de Projeto da DGEEC
Fonte wikipedia , 2005 internet network
Visualização
Visualização/Reporting
Pág. 7
Acesso a grandes
volumes de dados
Juntar tabelas, filtrar
dados e calcular
colunas
Descobrir e explorar
relações entre
variáveis
Visuais que incluem
previsão, correlações,
box plots, heatmaps,
gráficos , apresentação
geográfica
Capacidade para
trabalhar com
modelação de
classificação usando
regressão logística e
árvores de decisão
Segmentação
orientada por dados
usando clustering
Criar relatórios ou
painéis personalizados
por meio de uma
interface de arrastar e
soltar
Aceder aos relatórios /
painéis existentes
através de seus
dispositivos móveis
(tablets)
Aceder aos relatórios /
painéis existentes
através das aplicações
office
PLATAFORMA VISUALIZAÇÃO
Fonte: Sistema da DGEEC Visualização e reporting
Visualização/Reporting
Pág. 7
CONSTRUÇÃO DE ANÁLISE DE FORMA INCREMENTAL
Fonte: Apresentação DataQuality Viya para a DGEEC
Visualização/Reporting
Pág. 7
Exemplo de exercício desenvolvido durante WorkShops
Vista mascarada a partir de dados reais – Zona verde – Dados pessoais inexistentes (anonimização DataSet)
(VisualAnalytics&Statistics)
Referências
Campos,F. . DataQuality – Componentes Percursos Educativos e Formativos, 2018. Documentos não publicados.
Direção-Geral de Estatísticas da Educação e Ciência.
Campos, F. . Técnicas Anonimização Microdados, 2017. Manuscrito não publicado. Direção-Geral de Estatísticas da Educação e Ciência.
Campos, F. . Safe Centre Investigadores, 2017 . Manuscrito não publicado. Direção-Geral de Estatísticas da Educação e Ciência.
A. Kowarik, M. Templ, B. Meindl, and F. Fonteneau. sdcMicroGUI: Statistical Disclosure Control for Micro-Data
Using the R Package sdcMicro.
M. Templ, A. Kowarik, and B. Meindl. sdcMicro: Statistical Disclosure Control methods for the generation of
public- and scientific-use files. Manual and Package., 2013. URL http://CRAN.R-roject.org/package=sdcMicro.
R package version 4.1.1.
M. Templ, B. Meindl and A. Kowarik : Introduction to Statistical Disclosure Control (SDC).
https://www.data-analysis.at/de_DE/geheimhaltung/.
A. Gregory. The Data Documentation Initiative (DDI): An Introduction for National Statistical Institutes,
2011. Open Data Foundation.
DDI Alliance. DDI specification, 2018. URL http://www.ddialliance.org/specification
SAS. SAS Data Quality, 2018. URL https://www.sas.com/en_us/software/data-quality.html
Campos,F. , Santos, J. , Malaca, C. . Harmonização variáveis de microdados, 2017. Manuscrito não publicado.
Direção-Geral de Estatísticas da Educação e Ciência.
Campos, F. (org.) . Lista de variáveis chave privacidade, 2018. Documento não publicado. Direção-Geral de Estatísticas da Educação e Ciência.
43

Contenu connexe

Tendances

SIMLAM - Sistema Integrado de Monitoramento e Licenciamento Ambiental
SIMLAM - Sistema Integrado de Monitoramento e Licenciamento AmbientalSIMLAM - Sistema Integrado de Monitoramento e Licenciamento Ambiental
SIMLAM - Sistema Integrado de Monitoramento e Licenciamento AmbientalTecnomapas
 
Direitos humanos, meio ambiente e educação ambiental
Direitos humanos, meio ambiente e educação ambientalDireitos humanos, meio ambiente e educação ambiental
Direitos humanos, meio ambiente e educação ambientalIsabela Espíndola
 
A Evolução da Educação Ambiental
A Evolução da Educação AmbientalA Evolução da Educação Ambiental
A Evolução da Educação AmbientalNelirene Estanislau
 
Lixo, Problemas e Soluções
Lixo, Problemas e SoluçõesLixo, Problemas e Soluções
Lixo, Problemas e Soluçõesantonioqwert
 
Joseph Mallord William Turner
Joseph Mallord William TurnerJoseph Mallord William Turner
Joseph Mallord William Turnereclipse_esev
 
Aspectos conceituais do gerenciamento de recursos hídricos2
Aspectos conceituais do gerenciamento de recursos hídricos2Aspectos conceituais do gerenciamento de recursos hídricos2
Aspectos conceituais do gerenciamento de recursos hídricos2Nilton Goulart
 
Agroecologia e agricultura_urbana
Agroecologia e agricultura_urbanaAgroecologia e agricultura_urbana
Agroecologia e agricultura_urbanaAmanda Tavares
 

Tendances (8)

SIMLAM - Sistema Integrado de Monitoramento e Licenciamento Ambiental
SIMLAM - Sistema Integrado de Monitoramento e Licenciamento AmbientalSIMLAM - Sistema Integrado de Monitoramento e Licenciamento Ambiental
SIMLAM - Sistema Integrado de Monitoramento e Licenciamento Ambiental
 
Aula19
Aula19Aula19
Aula19
 
Direitos humanos, meio ambiente e educação ambiental
Direitos humanos, meio ambiente e educação ambientalDireitos humanos, meio ambiente e educação ambiental
Direitos humanos, meio ambiente e educação ambiental
 
A Evolução da Educação Ambiental
A Evolução da Educação AmbientalA Evolução da Educação Ambiental
A Evolução da Educação Ambiental
 
Lixo, Problemas e Soluções
Lixo, Problemas e SoluçõesLixo, Problemas e Soluções
Lixo, Problemas e Soluções
 
Joseph Mallord William Turner
Joseph Mallord William TurnerJoseph Mallord William Turner
Joseph Mallord William Turner
 
Aspectos conceituais do gerenciamento de recursos hídricos2
Aspectos conceituais do gerenciamento de recursos hídricos2Aspectos conceituais do gerenciamento de recursos hídricos2
Aspectos conceituais do gerenciamento de recursos hídricos2
 
Agroecologia e agricultura_urbana
Agroecologia e agricultura_urbanaAgroecologia e agricultura_urbana
Agroecologia e agricultura_urbana
 

Similaire à Qualidade de dados - data quality & GDPR

FINAL_Apresentação2 Template FCCN vHR Versão 26.06.2023- FC.pptx
FINAL_Apresentação2 Template FCCN vHR Versão 26.06.2023- FC.pptxFINAL_Apresentação2 Template FCCN vHR Versão 26.06.2023- FC.pptx
FINAL_Apresentação2 Template FCCN vHR Versão 26.06.2023- FC.pptxPaulaSerdeiraAzevedo2
 
Oficina preservação digital Módulo 3
Oficina preservação digital Módulo 3Oficina preservação digital Módulo 3
Oficina preservação digital Módulo 3Roberto Lopes
 
Auditoria Eletrônica: Automatização de procedimentos de auditoria através do ...
Auditoria Eletrônica: Automatização de procedimentos de auditoria através do ...Auditoria Eletrônica: Automatização de procedimentos de auditoria através do ...
Auditoria Eletrônica: Automatização de procedimentos de auditoria através do ...TECSI FEA USP
 
Plano Director de Sistemas de Informação
Plano Director de Sistemas de InformaçãoPlano Director de Sistemas de Informação
Plano Director de Sistemas de InformaçãoGermano Magalhães
 
Estratégia Institucional para a gestão de dados de investigação na UMINHO: o ...
Estratégia Institucional para a gestão de dados de investigação na UMINHO: o ...Estratégia Institucional para a gestão de dados de investigação na UMINHO: o ...
Estratégia Institucional para a gestão de dados de investigação na UMINHO: o ...Pedro Príncipe
 
Flisol 2016 fidelis - Curitiba - PR - Brazil
Flisol 2016   fidelis - Curitiba - PR - BrazilFlisol 2016   fidelis - Curitiba - PR - Brazil
Flisol 2016 fidelis - Curitiba - PR - BrazilMarcos Vinicius Fidelis
 
Política e cultura de segurança da informação - aspectos burocráticos
Política e cultura de segurança da informação - aspectos burocráticosPolítica e cultura de segurança da informação - aspectos burocráticos
Política e cultura de segurança da informação - aspectos burocráticosBruno Oliveira
 
Apresentação Corporativa SysValue
Apresentação Corporativa SysValueApresentação Corporativa SysValue
Apresentação Corporativa SysValueFilipe Rolo
 
Gerenciamento Estratégico de Sistemas
Gerenciamento Estratégico de SistemasGerenciamento Estratégico de Sistemas
Gerenciamento Estratégico de SistemasJosé Passos
 
GID - Governança Integrada de Dados
GID - Governança Integrada de DadosGID - Governança Integrada de Dados
GID - Governança Integrada de DadosBusiness Station
 
Workshop sobre Planos de Gestão de Dados - ferramentas e requisitos dos finan...
Workshop sobre Planos de Gestão de Dados - ferramentas e requisitos dos finan...Workshop sobre Planos de Gestão de Dados - ferramentas e requisitos dos finan...
Workshop sobre Planos de Gestão de Dados - ferramentas e requisitos dos finan...Pedro Príncipe
 
Aula 2.0 governança de ti
Aula 2.0 governança de tiAula 2.0 governança de ti
Aula 2.0 governança de tilcumaio
 
ABERTURA E GESTÃO DE DADOS DE INVESTIGAÇÃO - Estratégias Institucionais e Ser...
ABERTURA E GESTÃO DE DADOS DE INVESTIGAÇÃO - Estratégias Institucionais e Ser...ABERTURA E GESTÃO DE DADOS DE INVESTIGAÇÃO - Estratégias Institucionais e Ser...
ABERTURA E GESTÃO DE DADOS DE INVESTIGAÇÃO - Estratégias Institucionais e Ser...Pedro Príncipe
 
Peti plano estratégico de tecnologia da informação
Peti   plano estratégico de tecnologia da informaçãoPeti   plano estratégico de tecnologia da informação
Peti plano estratégico de tecnologia da informaçãoBruno Cesar Silveira Emilio
 

Similaire à Qualidade de dados - data quality & GDPR (20)

FINAL_Apresentação2 Template FCCN vHR Versão 26.06.2023- FC.pptx
FINAL_Apresentação2 Template FCCN vHR Versão 26.06.2023- FC.pptxFINAL_Apresentação2 Template FCCN vHR Versão 26.06.2023- FC.pptx
FINAL_Apresentação2 Template FCCN vHR Versão 26.06.2023- FC.pptx
 
Oficina preservação digital Módulo 3
Oficina preservação digital Módulo 3Oficina preservação digital Módulo 3
Oficina preservação digital Módulo 3
 
Auditoria Eletrônica: Automatização de procedimentos de auditoria através do ...
Auditoria Eletrônica: Automatização de procedimentos de auditoria através do ...Auditoria Eletrônica: Automatização de procedimentos de auditoria através do ...
Auditoria Eletrônica: Automatização de procedimentos de auditoria através do ...
 
Plano Director de Sistemas de Informação
Plano Director de Sistemas de InformaçãoPlano Director de Sistemas de Informação
Plano Director de Sistemas de Informação
 
SISTEMAS DE INFORMAÇÕES GERENCIAIS
SISTEMAS DE INFORMAÇÕES GERENCIAISSISTEMAS DE INFORMAÇÕES GERENCIAIS
SISTEMAS DE INFORMAÇÕES GERENCIAIS
 
Estratégia Institucional para a gestão de dados de investigação na UMINHO: o ...
Estratégia Institucional para a gestão de dados de investigação na UMINHO: o ...Estratégia Institucional para a gestão de dados de investigação na UMINHO: o ...
Estratégia Institucional para a gestão de dados de investigação na UMINHO: o ...
 
1 ementa
1 ementa1 ementa
1 ementa
 
Flisol 2016 fidelis - Curitiba - PR - Brazil
Flisol 2016   fidelis - Curitiba - PR - BrazilFlisol 2016   fidelis - Curitiba - PR - Brazil
Flisol 2016 fidelis - Curitiba - PR - Brazil
 
Política e cultura de segurança da informação - aspectos burocráticos
Política e cultura de segurança da informação - aspectos burocráticosPolítica e cultura de segurança da informação - aspectos burocráticos
Política e cultura de segurança da informação - aspectos burocráticos
 
Sad01 elvis
Sad01 elvisSad01 elvis
Sad01 elvis
 
Apresentação Corporativa SysValue
Apresentação Corporativa SysValueApresentação Corporativa SysValue
Apresentação Corporativa SysValue
 
dq
dqdq
dq
 
Gerenciamento Estratégico de Sistemas
Gerenciamento Estratégico de SistemasGerenciamento Estratégico de Sistemas
Gerenciamento Estratégico de Sistemas
 
GID - Governança Integrada de Dados
GID - Governança Integrada de DadosGID - Governança Integrada de Dados
GID - Governança Integrada de Dados
 
Workshop sobre Planos de Gestão de Dados - ferramentas e requisitos dos finan...
Workshop sobre Planos de Gestão de Dados - ferramentas e requisitos dos finan...Workshop sobre Planos de Gestão de Dados - ferramentas e requisitos dos finan...
Workshop sobre Planos de Gestão de Dados - ferramentas e requisitos dos finan...
 
Aula 2.0 governança de ti
Aula 2.0 governança de tiAula 2.0 governança de ti
Aula 2.0 governança de ti
 
Pentaho Weka latinoware
Pentaho Weka latinowarePentaho Weka latinoware
Pentaho Weka latinoware
 
ABERTURA E GESTÃO DE DADOS DE INVESTIGAÇÃO - Estratégias Institucionais e Ser...
ABERTURA E GESTÃO DE DADOS DE INVESTIGAÇÃO - Estratégias Institucionais e Ser...ABERTURA E GESTÃO DE DADOS DE INVESTIGAÇÃO - Estratégias Institucionais e Ser...
ABERTURA E GESTÃO DE DADOS DE INVESTIGAÇÃO - Estratégias Institucionais e Ser...
 
Peti plano estratégico de tecnologia da informação
Peti   plano estratégico de tecnologia da informaçãoPeti   plano estratégico de tecnologia da informação
Peti plano estratégico de tecnologia da informação
 
Segurança da Informação e Governança em TI
Segurança da Informação e Governança em TISegurança da Informação e Governança em TI
Segurança da Informação e Governança em TI
 

Plus de Fernando Rui Campos

Questões da privacidade nas bibliotecas da era digital
Questões da privacidade nas bibliotecas da era digitalQuestões da privacidade nas bibliotecas da era digital
Questões da privacidade nas bibliotecas da era digitalFernando Rui Campos
 
COVID-19 Novos desafios, novos espaços de aprendizagem
COVID-19 Novos desafios, novos espaços de aprendizagemCOVID-19 Novos desafios, novos espaços de aprendizagem
COVID-19 Novos desafios, novos espaços de aprendizagemFernando Rui Campos
 
Infografia direitos de autor - Educação
Infografia direitos de autor - Educação Infografia direitos de autor - Educação
Infografia direitos de autor - Educação Fernando Rui Campos
 
Tools & technologies for educators
Tools & technologies for educatorsTools & technologies for educators
Tools & technologies for educatorsFernando Rui Campos
 
Aceder, Criar e Partilhar Prudentemente
Aceder, Criar e Partilhar PrudentementeAceder, Criar e Partilhar Prudentemente
Aceder, Criar e Partilhar PrudentementeFernando Rui Campos
 
Recursos educativos digitais abertos
Recursos educativos digitais abertosRecursos educativos digitais abertos
Recursos educativos digitais abertosFernando Rui Campos
 
Cyber bullying Experiências de formação
Cyber bullying Experiências de formaçãoCyber bullying Experiências de formação
Cyber bullying Experiências de formaçãoFernando Rui Campos
 
Notas qualidade e design multimedia
Notas qualidade e design multimediaNotas qualidade e design multimedia
Notas qualidade e design multimediaFernando Rui Campos
 
Historias & cenarios de aprendizagem
Historias & cenarios de aprendizagemHistorias & cenarios de aprendizagem
Historias & cenarios de aprendizagemFernando Rui Campos
 
Utilização video audio ativosdigitais
Utilização video audio ativosdigitaisUtilização video audio ativosdigitais
Utilização video audio ativosdigitaisFernando Rui Campos
 
Sessao 15 novembro2013_tecnologias iTEC
Sessao 15 novembro2013_tecnologias iTECSessao 15 novembro2013_tecnologias iTEC
Sessao 15 novembro2013_tecnologias iTECFernando Rui Campos
 
Sessao 15 novembro2013 widgets widgetStore
Sessao 15 novembro2013 widgets widgetStoreSessao 15 novembro2013 widgets widgetStore
Sessao 15 novembro2013 widgets widgetStoreFernando Rui Campos
 

Plus de Fernando Rui Campos (20)

Questões da privacidade nas bibliotecas da era digital
Questões da privacidade nas bibliotecas da era digitalQuestões da privacidade nas bibliotecas da era digital
Questões da privacidade nas bibliotecas da era digital
 
COVID-19 Novos desafios, novos espaços de aprendizagem
COVID-19 Novos desafios, novos espaços de aprendizagemCOVID-19 Novos desafios, novos espaços de aprendizagem
COVID-19 Novos desafios, novos espaços de aprendizagem
 
Infografia direitos de autor - Educação
Infografia direitos de autor - Educação Infografia direitos de autor - Educação
Infografia direitos de autor - Educação
 
Tools & technologies for educators
Tools & technologies for educatorsTools & technologies for educators
Tools & technologies for educators
 
Access, create and share wisely
Access, create and share wiselyAccess, create and share wisely
Access, create and share wisely
 
Aceder, Criar e Partilhar Prudentemente
Aceder, Criar e Partilhar PrudentementeAceder, Criar e Partilhar Prudentemente
Aceder, Criar e Partilhar Prudentemente
 
Recursos educativos digitais abertos
Recursos educativos digitais abertosRecursos educativos digitais abertos
Recursos educativos digitais abertos
 
Didática TIC & RED
Didática TIC & RED Didática TIC & RED
Didática TIC & RED
 
Cyber bullying Experiências de formação
Cyber bullying Experiências de formaçãoCyber bullying Experiências de formação
Cyber bullying Experiências de formação
 
Notas qualidade e design multimedia
Notas qualidade e design multimediaNotas qualidade e design multimedia
Notas qualidade e design multimedia
 
Historias & cenarios de aprendizagem
Historias & cenarios de aprendizagemHistorias & cenarios de aprendizagem
Historias & cenarios de aprendizagem
 
Utilização video audio ativosdigitais
Utilização video audio ativosdigitaisUtilização video audio ativosdigitais
Utilização video audio ativosdigitais
 
Ferramentas e Apps Educação
Ferramentas e Apps EducaçãoFerramentas e Apps Educação
Ferramentas e Apps Educação
 
Critérios Travel Well & LORI
Critérios Travel Well & LORICritérios Travel Well & LORI
Critérios Travel Well & LORI
 
Sessao 15 novembro2013_tecnologias iTEC
Sessao 15 novembro2013_tecnologias iTECSessao 15 novembro2013_tecnologias iTEC
Sessao 15 novembro2013_tecnologias iTEC
 
Sessao 15 novembro2013 widgets widgetStore
Sessao 15 novembro2013 widgets widgetStoreSessao 15 novembro2013 widgets widgetStore
Sessao 15 novembro2013 widgets widgetStore
 
Team up openid_c3
Team up openid_c3Team up openid_c3
Team up openid_c3
 
Tecnologias digitais iTEC c3
Tecnologias digitais iTEC c3Tecnologias digitais iTEC c3
Tecnologias digitais iTEC c3
 
Apresentação budapest cc
Apresentação budapest ccApresentação budapest cc
Apresentação budapest cc
 
iTEC widgetStore
iTEC widgetStoreiTEC widgetStore
iTEC widgetStore
 

Qualidade de dados - data quality & GDPR

  • 1. Data Management, Privacy and Safe Centre – “uma relação improvável” Lisboa, 30 de maio 2019 Fernando Rui Campos – DPO- Direção-Geral de Estatísticas da Educação e Ciência
  • 2. Page. 2 Introdução A Direção-Geral de Estatísticas da Educação e Ciência é um serviço central da administração direta do Estado, dotado de autonomia administrativa, que tem por missão garantir a produção e análise estatística da educação e ciência, apoiando tecnicamente a formulação de políticas e o planeamento estratégico e operacional, criar e assegurar o bom funcionamento do sistema integrado de informação observar e avaliar globalmente os resultados obtidos pelos sistemas educativo e científico e tecnológico, em articulação com os demais serviços, encontrando-se na dependência do Ministro da Educação e do Ministro da Ciência Tecnologia e Ensino Superior . Contextualização
  • 3. Page. 3 Introdução  A responsabilidade por parte da Direção-Geral de Estatísticas da Educação e Ciência em garantir a recolha, monitorização, tratamento, produção e divulgação de informação adequada (designadamente estatística).  Tem a recolha de dados de todas as escolas públicas que inclui a avaliação de alunos menores de forma periódica.  A DGEEC é uma entidade com delegação de competências do Instituto Nacional de Estatística e está sujeita ao Segredo Estatístico Nacional, entre outra legislação.  Ser uma entidade publica e com necessidade do cumprimento da Resolução do Conselho de Ministros (RCM) n.º 41/2018, no que diz respeitos às orientações técnicas, como adequação para o Regulamento Geral sobre a Proteção de Dados (RGPD) .  A DGEEC segue os normativos legais e as orientações emanadas da Secretaria-Geral da Educação e Ciência no que se refere ao RGPD. Contextualização
  • 4. Page. 4 Introdução Representação simplificada de necessidades, metas e desafios Múltiplos sistemas Recolha estatística, Administrativa com fins diferenciados Variações nos registos no mesmo ano devido aos múltiplos sistemas Variações nos registos ao longo dos anos Volumetria de registos > 1,5 mil milhões e tempo processamento < 24horas Múltiplos utilizadores da informação com necessidades específicas em departamentos e equipas diferenciadas na organização Diferentes níveis de sensibilização para a temática da privacidade na organização Necessidades específicas de investigadores nas diferentes áreas de governação - SafeCentre Contributos para a qualidade Melhoria da proteção de dados e da qualidade dos dados a disponibilizar Investigadores (Microdados) Inclusão de métricas de risco de privacidade para as tabelas e microdados Existência de múltiplos formatos e tempos de processamento elevados monitorização Risco privacidade
  • 5. Page. 5 Introdução Resumo da preparação prévia – DGEEC 1. Estudo e criação de modelo a implementar que inclua governação, processamento, anonimização e disponibilização de resultados e DataSets para investigadores (Safe Centre) [2016-2017]. 2. Testes de todas as fases de modelo em várias aplicações Open Source e sistema de agregação – (levantamento de métricas para comparação na Prova de Conceito)[out 2016 – mar 2017]. 3. Documento sobre métodos e ferramentas de anonimização, incluindo testes preliminares com dados reais [2017-2018]. 4. Elaboração de documento com impacto esperado do RGPD na DGEEC, incluindo a elaboração de documentação específica para a estatística e a organização [fev 2017- nov 2017]. 5. Levantamento de todos os ativos com dados pessoais e criada instrumentação específica [abri 2017-julho 2017]. 6. Análise de Gap do RGPD (onde estamos e o que é necessário fazer)[out 2017-dez 2017]. 7. Organização de documentação específica da área da Educação, para integrar modelo proposto de governação de dados [2018]. 8. Documentação com classificação de variáveis de privacidade de acordo com classificação usada em estatística[2017-2018] . 9. Criação de plano de maturidade gradual para implementação de conformidade RGPD, na DGEEC, plano 2 anos. 10. Organização de workshops específicos por departamento, na área da privacidade [jan 2018 – mar 2018].
  • 7. Abordagem Pág. 15 Data Quality & Safe Centre Monitorização de Recolhas de acordo com indicadores privacidade Visualização & Exploração (Visual Analytics & Statistics) Gestão Risco & Compliance RGPD (RCM 41/2018) Proteção de Dados Modelo global da abordagem A melhoria na qualidade, gestão e risco de privacidade acompanha os processos Onde estamos
  • 8. Abordagem Pág. 15 Data Quality & Safe Centre Monitorização de Recolhas com indicadores privacidade Visualização & Exploração (Visual Analytics & Statistics) Gestão Risco & Compliance RGPD (RCM 41/2018) Copyright : Alguns das imagens podem conter direitos de autor dos respetivos fabricantes
  • 9. Abordagem Pág. 15 A Gestão de Dados, concretiza o processo desde a recolha até à sua disponibilização de acordo com as suas diferentes formas e diferentes públicos – alvo. Os mecanismos implementados e os respetivos processos pretendem responder aos princípios de privacidade por desenho, (privacy by design). O modelo inicial testado anteriormente através da realização de uma prova de conceito, implementa o fluxo de dados desde as diferentes fontes ao modelo final a disponibilizar, tendo em conta aspetos de agregação, normalização e diferentes níveis de anonimização dos dados, de acordo com as finalidades. Bases de Dados … Fonte de Dados … Processos de Qualidade de Dados  Profiling  Validação  Normalização  Integração  Disponibilização … Proteção  Anonimização Validação … Exploração … Avaliação de  Risco  Impacto  Privilégios  Controlo de Acessos  Reporting Gestão de Dados
  • 10. Abordagem Pág. 15 Fonte de Dados Processos de Qualidade de Dados • Validação • Normalização • Integração • Disponibilização • Anonimização  Avaliação de Risco  Análise de Impacto  Profiling & Monitorização  Privilégios  Controlo de Acessos … Bases de Dados … Profiling Validação NormalizaçãoIntegração Monitorização Base de Dados GDPEF Dashboards ZONA VERMELHA ZONA AMARELA ZONA VERDE • Base de Dados Consulta • Formato BD e datasets • Metainformação e DDI • Portal de publicação • Visualização • Dashboards Critérios de seleção de microdados  Profiling & Monitorização  Controlo de Acessos Critérios de validação e agregação Técnicas de anonimização Especificação harmonização de variáveis Definição de uso de dados pessoais Definição de metainformação Critérios de disponibilização Autorização de acessos a dados Definição de metainformação de dados disponíveis Definição de privilégios • Sistemas • Estatística oficial • Investigadores • Outros inquéritos • Outras fontes
  • 11. Abordagem Pág. 15 Fonte de Dados … Bases de Dados ZONA VERMELHA Zona Vermelha A zona vermelha inclui os dados originais dos sistemas de recolha para fins inicialmente administrativos e das recolhas estatísticas ou de estudos da DGEEC. Representam os dados no seu estado original e onde são analisadas as variáveis de privacidade e a monitorização do risco de privacidade. Para alem de bases de dados, podem existir dados com dados pessoais em formatos diferentes, nomeadamente de folha de cálculo.
  • 12. Abordagem Pág. 15 Processos de Qualidade de Dados • Validação • Normalização • Integração • Disponibilização • Anonimização • Encriptação (parcial) Profiling Validação NormalizaçãoIntegração Monitorização ZONA AMARELA Zona Amarela A zona amarela é a zona de trabalho do sistema. Os dados são obtidos sob a forma original, com dados pessoais visíveis. Nesta zona, são • analisados, • integrados, • normalizados, • anonimizados (com encriptação nalguns casos e nas respetivas variáveis), • Webservice(s) de consulta mediante segurança definida, • disponibilizados de forma coerente e controlada.
  • 13. Abordagem Pág. 15 … Base de Dados GDPEF Dashboards ZONA VERDE • Base de Dados Consulta • Formato BD e datasets • Metainformação e DDI • Portal de publicação • Visualização • Dashboards Zona Verde Na zona verde os dados ficam disponíveis para exploração através de acesso à base de dados. Não existem dados pessoais publicados – cada entidade é representada por um código. A metainformação das tabelas disponíveis é visível através de relatório no portal + DDI. O acesso é controlado por matriz de segurança – grupo de utilizadores/permissões. O portal é organizado por áreas de acesso, tendo o EPD/ DPO relatórios específicos dos dataSets, assim como de todas as recolhas da zona vermelha (i.e. sistemas internos e disponibilização externa).
  • 14. TECNOLOGIA CC license Flickr author tec_estromberg Tecnologia
  • 15. Tecnologia Pág. 15 A componente de qualidade de dados usada incluí uma solução corporativa para Profiling, Limpeza, Integração e Enriquecimento de dados. Metodologia Data Quality Exemplo de metodologia
  • 16. Tecnologia Pág. 16 Um dos componentes utilizado foi a solução de Data Quality corporativa para Gestão e Tratamento de Dados. Ferramentas de Gestão de dados
  • 17. Tecnologia Pág. 17 Tecnologia envolvida no projeto Copyright – os logos apresentados têm direitos de autor dos respetivos fabricantes
  • 18. PROCESSOS DE QUALIDADE DE DADOS CC0 Wikipedia Processos de qualidade de dados
  • 19. Processos de Qualidade de Dados Pág. 19 Data Profiling A análise da qualidade dos dados, antes durante e depois dos processos é importante para melhor adequação dos processos de normalização e integração de dados.
  • 20. Processos de Qualidade de Dados Pág. 20 Processos ETL (Extract, Transform and Load) Os dados obtidos a parir das fontes (Extract) por acesso integral às tabelas ou via query, incluindo possíveis transformações e produzindo uma nova configuração disponível para carregar em uma ou várias tabelas de base de dados. Os tipos de fontes é diverso e vai de ficheiros em formato csv, xls e Base de dados SQL de fabricantes como Microsoft e ORACLE. No exemplo, os dados são obtidos de diferentes bases de dados e integrados num comum (unions) e entregues numa tabela final .
  • 21. Processos de Qualidade de Dados Pág. 21 Glossário de Termos Definição dos termos de negócio associados à Educação, Associação da classificação de nivel de privacidade variáveis através do campo “Importância”. Governação de dados
  • 22. Processos de Qualidade de Dados Pág. 22 Data Lineage Associação de termos de negócio a itens concretos: Servidores, Aplicações, Bases de Dados, Tabelas, Campos, Processos, … Governação de dados
  • 23. Processos de Qualidade de Dados Pág. 23 Data Lineage – Análise de Impacto A partir de um termo de negócio, identificar os itens relacionados e respetiva utilização. A alteração de um termo, respetivas regras ou definição tem impacto nos respetivos itens associados.
  • 24. Processos de Qualidade de Dados Pág. 24 Submissão de registo(s) de entidade(s) obtendo-se informação de negócio associada às mesmas. Webservice de Consulta
  • 25. CC BY SA Privacy by Nick Youngson CC BY-SA 3.0 Alpha Stock Images Privacidade
  • 26. Proteção de Dados Pág. 26 A partir das bases de dados MetaPrivacidade e Consentimentos, utilizando a classificação de varáveis na governação, quanto à criticidade de privacidade, ficam publicados na interface de visualização um conjunto de dashboards para acompanhamento dos indicadores de privacidade: • KPIs Estado das Recolhas, Estado da MetaPrivacidade • Análise de Risco MicroDados e Recolhas • Monitorização de registos de acesso consentimentos • Estado das recolhas e AIPD • KPIs Privacidade Privacidade
  • 27. Proteção de Dados Pág. 27 Ferramenta interna desenvolvida pela DGEEC a partir de especificação de metadados no âmbito da privacidade  Ponto de partida para a criação da lógica de criação do ambiente de monitorização dos dados pessoais Metaprivacidade (metadados&privacidade)
  • 28. Proteção de Dados Pág. 28 Safe Centre - Investigadores Processo genérico da aplicação da anonimização de microdados - DataSets Investigadores Fonte: “Introduction to Statistical Disclosure Control (SDC ).” IHSN Working Paper No. 007 (2014).
  • 29. Proteção de Dados Pág. 29 Safe Centre - Investigadores Preparação dos dados Supressão de variáveis identificadoras Identificação de variáveis quase-identificadoras Transformação prévia de variáveis quase- identificadoras com grande dispersão de valores Integração no sdcMicro Importação dos microdados para R Criação do objeto SDC associado com base na identificação de variáveis efetuada anteriormente Avaliação do risco inerente aos dados Transformação no sdcMicro Execução de estratégias de mitigação de risco Avaliação da evolução do risco e da perda de informação Exportação dos dados protegidos Três fases principais: uma primeira fase de preparação dos dados e identificação de variáveis relevantes de privacidade; uma segunda fase de integração da informação no sdcMicro+R e respetiva avaliação de risco de reidentificação; e a execução de transformações sobre os dados com vista à sua proteção (anonimização).
  • 33. Projeto Wikimeia Commons Agile Project Management Projeto
  • 34. Projeto Pág. 34 Milestones Data Plano Estimadas Estado Entregáveis Instalação software Out’ 2018 Executado Doc: Guia de Operação – Instalação/Manu tenção Doc: Plano de Testes e Aceitação Doc: Manual de Operações Análise de Fontes de Dados, Regras e Modelos de Dados Desenho de processos DQ e Modelo(s) GDPEF Análise de primitivas e regras de Privacidade Out/Nov’ 2018 Executado Processos ETL, Data Quality Nov/Dez’2018 Desenvolvimento Processos Privacidade Visualização de resultados: reports e dashboards Validação de Resultados (deploy consecutivo) Dez’2018 Planeado Formação Jan’2019 Documentação
  • 35. Projeto Pág. 35 Out’18 Nov’18 Dez’18 Jan’19 (1ª Quinzena) • Instalação software • Análise de Fontes de Dados, Regras e Modelos de Dados • Desenho de processos DQ e Modelo(s) • Análise de primitivas e regras de Privacidade • Processos ETL, Data Quality • Processos Privacidade • Visualização de resultados: reports e dashboards • Formação • Documentação Doc: Manual Operação Solução Doc: Plano Testes/Aceitação Plano Projeto – Esquema Calendário Manual Instalação/Conf
  • 36. Projeto Pág. 36 Assunto Nº sessões/workshops Data Quality & Governance (DataFlux) 8 Statistical Disclosure Control - Micro & Table Data 10 Apoio à Produção de Dados Estatística Oficial – Ensino Superior 12 Apoio à Produção de Dados Estatística Oficial – Ensino Básico e Secundário 8 Visual Analytics Administration and Reporting 4 Gestão da mudança  Número de pessoas envolvidas na organização – 40  Duração média de cada workshop – 2 horas  Sessões específicas por subgrupos de acordo com a especificidade do trabalho a desenvolver WorkShops – Realizadas nas instalações da DGEEC
  • 37. Projeto Pág. 37 Gestão da mudança  Reuniões diárias de acompanhamento por parte do Gestor de contrato e de projeto, com o integrador.  Acompanhamento próximo dos utilizadores das ferramentas de acordo com a solução, pós formação.  Workshops desenhados de acordo com os dados relevantes e enquadrados na atividade profissional diária/periódica dos utilizadores.  Compromisso por parte da Direção e dirigentes . Como ?
  • 38. Projeto Pág. 38 SponsorG.Projeto Equipae utilizadoreschave Fernando Campos (GP & GC) Luísa Loura Teresa Evaristo, João Batista Jorge Teixeira Miguel Dinis Isaque Gomes Jorge Pinto (IT) Luis Martinho (BD) Joana Duarte Ricardo Santos Catarina Afflalo (Estudos) Nuno Rodrigues Carlos Malaca Marta Oliveira … (Ens.Superior) Alexandre Paredes Filomena Oliveira (Ciência e Tecnologia) Nuno Rodrigues Joaquim Santos Rui Mestre (Ensino Básico Secundário) Paula Ferreira (Formação - SIGO) Equipas de Projeto da DGEEC
  • 39. Fonte wikipedia , 2005 internet network Visualização
  • 40. Visualização/Reporting Pág. 7 Acesso a grandes volumes de dados Juntar tabelas, filtrar dados e calcular colunas Descobrir e explorar relações entre variáveis Visuais que incluem previsão, correlações, box plots, heatmaps, gráficos , apresentação geográfica Capacidade para trabalhar com modelação de classificação usando regressão logística e árvores de decisão Segmentação orientada por dados usando clustering Criar relatórios ou painéis personalizados por meio de uma interface de arrastar e soltar Aceder aos relatórios / painéis existentes através de seus dispositivos móveis (tablets) Aceder aos relatórios / painéis existentes através das aplicações office PLATAFORMA VISUALIZAÇÃO Fonte: Sistema da DGEEC Visualização e reporting
  • 41. Visualização/Reporting Pág. 7 CONSTRUÇÃO DE ANÁLISE DE FORMA INCREMENTAL Fonte: Apresentação DataQuality Viya para a DGEEC
  • 42. Visualização/Reporting Pág. 7 Exemplo de exercício desenvolvido durante WorkShops Vista mascarada a partir de dados reais – Zona verde – Dados pessoais inexistentes (anonimização DataSet) (VisualAnalytics&Statistics)
  • 43. Referências Campos,F. . DataQuality – Componentes Percursos Educativos e Formativos, 2018. Documentos não publicados. Direção-Geral de Estatísticas da Educação e Ciência. Campos, F. . Técnicas Anonimização Microdados, 2017. Manuscrito não publicado. Direção-Geral de Estatísticas da Educação e Ciência. Campos, F. . Safe Centre Investigadores, 2017 . Manuscrito não publicado. Direção-Geral de Estatísticas da Educação e Ciência. A. Kowarik, M. Templ, B. Meindl, and F. Fonteneau. sdcMicroGUI: Statistical Disclosure Control for Micro-Data Using the R Package sdcMicro. M. Templ, A. Kowarik, and B. Meindl. sdcMicro: Statistical Disclosure Control methods for the generation of public- and scientific-use files. Manual and Package., 2013. URL http://CRAN.R-roject.org/package=sdcMicro. R package version 4.1.1. M. Templ, B. Meindl and A. Kowarik : Introduction to Statistical Disclosure Control (SDC). https://www.data-analysis.at/de_DE/geheimhaltung/. A. Gregory. The Data Documentation Initiative (DDI): An Introduction for National Statistical Institutes, 2011. Open Data Foundation. DDI Alliance. DDI specification, 2018. URL http://www.ddialliance.org/specification SAS. SAS Data Quality, 2018. URL https://www.sas.com/en_us/software/data-quality.html Campos,F. , Santos, J. , Malaca, C. . Harmonização variáveis de microdados, 2017. Manuscrito não publicado. Direção-Geral de Estatísticas da Educação e Ciência. Campos, F. (org.) . Lista de variáveis chave privacidade, 2018. Documento não publicado. Direção-Geral de Estatísticas da Educação e Ciência. 43