Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.

Qualidade de dados - data quality & GDPR

Modelos e gestão avançada de dados, no âmbito da utilização em estatística e investigação

  • Identifiez-vous pour voir les commentaires

  • Soyez le premier à aimer ceci

Qualidade de dados - data quality & GDPR

  1. 1. Data Management, Privacy and Safe Centre – “uma relação improvável” Lisboa, 30 de maio 2019 Fernando Rui Campos – DPO- Direção-Geral de Estatísticas da Educação e Ciência
  2. 2. Page. 2 Introdução A Direção-Geral de Estatísticas da Educação e Ciência é um serviço central da administração direta do Estado, dotado de autonomia administrativa, que tem por missão garantir a produção e análise estatística da educação e ciência, apoiando tecnicamente a formulação de políticas e o planeamento estratégico e operacional, criar e assegurar o bom funcionamento do sistema integrado de informação observar e avaliar globalmente os resultados obtidos pelos sistemas educativo e científico e tecnológico, em articulação com os demais serviços, encontrando-se na dependência do Ministro da Educação e do Ministro da Ciência Tecnologia e Ensino Superior . Contextualização
  3. 3. Page. 3 Introdução  A responsabilidade por parte da Direção-Geral de Estatísticas da Educação e Ciência em garantir a recolha, monitorização, tratamento, produção e divulgação de informação adequada (designadamente estatística).  Tem a recolha de dados de todas as escolas públicas que inclui a avaliação de alunos menores de forma periódica.  A DGEEC é uma entidade com delegação de competências do Instituto Nacional de Estatística e está sujeita ao Segredo Estatístico Nacional, entre outra legislação.  Ser uma entidade publica e com necessidade do cumprimento da Resolução do Conselho de Ministros (RCM) n.º 41/2018, no que diz respeitos às orientações técnicas, como adequação para o Regulamento Geral sobre a Proteção de Dados (RGPD) .  A DGEEC segue os normativos legais e as orientações emanadas da Secretaria-Geral da Educação e Ciência no que se refere ao RGPD. Contextualização
  4. 4. Page. 4 Introdução Representação simplificada de necessidades, metas e desafios Múltiplos sistemas Recolha estatística, Administrativa com fins diferenciados Variações nos registos no mesmo ano devido aos múltiplos sistemas Variações nos registos ao longo dos anos Volumetria de registos > 1,5 mil milhões e tempo processamento < 24horas Múltiplos utilizadores da informação com necessidades específicas em departamentos e equipas diferenciadas na organização Diferentes níveis de sensibilização para a temática da privacidade na organização Necessidades específicas de investigadores nas diferentes áreas de governação - SafeCentre Contributos para a qualidade Melhoria da proteção de dados e da qualidade dos dados a disponibilizar Investigadores (Microdados) Inclusão de métricas de risco de privacidade para as tabelas e microdados Existência de múltiplos formatos e tempos de processamento elevados monitorização Risco privacidade
  5. 5. Page. 5 Introdução Resumo da preparação prévia – DGEEC 1. Estudo e criação de modelo a implementar que inclua governação, processamento, anonimização e disponibilização de resultados e DataSets para investigadores (Safe Centre) [2016-2017]. 2. Testes de todas as fases de modelo em várias aplicações Open Source e sistema de agregação – (levantamento de métricas para comparação na Prova de Conceito)[out 2016 – mar 2017]. 3. Documento sobre métodos e ferramentas de anonimização, incluindo testes preliminares com dados reais [2017-2018]. 4. Elaboração de documento com impacto esperado do RGPD na DGEEC, incluindo a elaboração de documentação específica para a estatística e a organização [fev 2017- nov 2017]. 5. Levantamento de todos os ativos com dados pessoais e criada instrumentação específica [abri 2017-julho 2017]. 6. Análise de Gap do RGPD (onde estamos e o que é necessário fazer)[out 2017-dez 2017]. 7. Organização de documentação específica da área da Educação, para integrar modelo proposto de governação de dados [2018]. 8. Documentação com classificação de variáveis de privacidade de acordo com classificação usada em estatística[2017-2018] . 9. Criação de plano de maturidade gradual para implementação de conformidade RGPD, na DGEEC, plano 2 anos. 10. Organização de workshops específicos por departamento, na área da privacidade [jan 2018 – mar 2018].
  6. 6. Public domain pictures Abordagem
  7. 7. Abordagem Pág. 15 Data Quality & Safe Centre Monitorização de Recolhas de acordo com indicadores privacidade Visualização & Exploração (Visual Analytics & Statistics) Gestão Risco & Compliance RGPD (RCM 41/2018) Proteção de Dados Modelo global da abordagem A melhoria na qualidade, gestão e risco de privacidade acompanha os processos Onde estamos
  8. 8. Abordagem Pág. 15 Data Quality & Safe Centre Monitorização de Recolhas com indicadores privacidade Visualização & Exploração (Visual Analytics & Statistics) Gestão Risco & Compliance RGPD (RCM 41/2018) Copyright : Alguns das imagens podem conter direitos de autor dos respetivos fabricantes
  9. 9. Abordagem Pág. 15 A Gestão de Dados, concretiza o processo desde a recolha até à sua disponibilização de acordo com as suas diferentes formas e diferentes públicos – alvo. Os mecanismos implementados e os respetivos processos pretendem responder aos princípios de privacidade por desenho, (privacy by design). O modelo inicial testado anteriormente através da realização de uma prova de conceito, implementa o fluxo de dados desde as diferentes fontes ao modelo final a disponibilizar, tendo em conta aspetos de agregação, normalização e diferentes níveis de anonimização dos dados, de acordo com as finalidades. Bases de Dados … Fonte de Dados … Processos de Qualidade de Dados  Profiling  Validação  Normalização  Integração  Disponibilização … Proteção  Anonimização Validação … Exploração … Avaliação de  Risco  Impacto  Privilégios  Controlo de Acessos  Reporting Gestão de Dados
  10. 10. Abordagem Pág. 15 Fonte de Dados Processos de Qualidade de Dados • Validação • Normalização • Integração • Disponibilização • Anonimização  Avaliação de Risco  Análise de Impacto  Profiling & Monitorização  Privilégios  Controlo de Acessos … Bases de Dados … Profiling Validação NormalizaçãoIntegração Monitorização Base de Dados GDPEF Dashboards ZONA VERMELHA ZONA AMARELA ZONA VERDE • Base de Dados Consulta • Formato BD e datasets • Metainformação e DDI • Portal de publicação • Visualização • Dashboards Critérios de seleção de microdados  Profiling & Monitorização  Controlo de Acessos Critérios de validação e agregação Técnicas de anonimização Especificação harmonização de variáveis Definição de uso de dados pessoais Definição de metainformação Critérios de disponibilização Autorização de acessos a dados Definição de metainformação de dados disponíveis Definição de privilégios • Sistemas • Estatística oficial • Investigadores • Outros inquéritos • Outras fontes
  11. 11. Abordagem Pág. 15 Fonte de Dados … Bases de Dados ZONA VERMELHA Zona Vermelha A zona vermelha inclui os dados originais dos sistemas de recolha para fins inicialmente administrativos e das recolhas estatísticas ou de estudos da DGEEC. Representam os dados no seu estado original e onde são analisadas as variáveis de privacidade e a monitorização do risco de privacidade. Para alem de bases de dados, podem existir dados com dados pessoais em formatos diferentes, nomeadamente de folha de cálculo.
  12. 12. Abordagem Pág. 15 Processos de Qualidade de Dados • Validação • Normalização • Integração • Disponibilização • Anonimização • Encriptação (parcial) Profiling Validação NormalizaçãoIntegração Monitorização ZONA AMARELA Zona Amarela A zona amarela é a zona de trabalho do sistema. Os dados são obtidos sob a forma original, com dados pessoais visíveis. Nesta zona, são • analisados, • integrados, • normalizados, • anonimizados (com encriptação nalguns casos e nas respetivas variáveis), • Webservice(s) de consulta mediante segurança definida, • disponibilizados de forma coerente e controlada.
  13. 13. Abordagem Pág. 15 … Base de Dados GDPEF Dashboards ZONA VERDE • Base de Dados Consulta • Formato BD e datasets • Metainformação e DDI • Portal de publicação • Visualização • Dashboards Zona Verde Na zona verde os dados ficam disponíveis para exploração através de acesso à base de dados. Não existem dados pessoais publicados – cada entidade é representada por um código. A metainformação das tabelas disponíveis é visível através de relatório no portal + DDI. O acesso é controlado por matriz de segurança – grupo de utilizadores/permissões. O portal é organizado por áreas de acesso, tendo o EPD/ DPO relatórios específicos dos dataSets, assim como de todas as recolhas da zona vermelha (i.e. sistemas internos e disponibilização externa).
  14. 14. TECNOLOGIA CC license Flickr author tec_estromberg Tecnologia
  15. 15. Tecnologia Pág. 15 A componente de qualidade de dados usada incluí uma solução corporativa para Profiling, Limpeza, Integração e Enriquecimento de dados. Metodologia Data Quality Exemplo de metodologia
  16. 16. Tecnologia Pág. 16 Um dos componentes utilizado foi a solução de Data Quality corporativa para Gestão e Tratamento de Dados. Ferramentas de Gestão de dados
  17. 17. Tecnologia Pág. 17 Tecnologia envolvida no projeto Copyright – os logos apresentados têm direitos de autor dos respetivos fabricantes
  18. 18. PROCESSOS DE QUALIDADE DE DADOS CC0 Wikipedia Processos de qualidade de dados
  19. 19. Processos de Qualidade de Dados Pág. 19 Data Profiling A análise da qualidade dos dados, antes durante e depois dos processos é importante para melhor adequação dos processos de normalização e integração de dados.
  20. 20. Processos de Qualidade de Dados Pág. 20 Processos ETL (Extract, Transform and Load) Os dados obtidos a parir das fontes (Extract) por acesso integral às tabelas ou via query, incluindo possíveis transformações e produzindo uma nova configuração disponível para carregar em uma ou várias tabelas de base de dados. Os tipos de fontes é diverso e vai de ficheiros em formato csv, xls e Base de dados SQL de fabricantes como Microsoft e ORACLE. No exemplo, os dados são obtidos de diferentes bases de dados e integrados num comum (unions) e entregues numa tabela final .
  21. 21. Processos de Qualidade de Dados Pág. 21 Glossário de Termos Definição dos termos de negócio associados à Educação, Associação da classificação de nivel de privacidade variáveis através do campo “Importância”. Governação de dados
  22. 22. Processos de Qualidade de Dados Pág. 22 Data Lineage Associação de termos de negócio a itens concretos: Servidores, Aplicações, Bases de Dados, Tabelas, Campos, Processos, … Governação de dados
  23. 23. Processos de Qualidade de Dados Pág. 23 Data Lineage – Análise de Impacto A partir de um termo de negócio, identificar os itens relacionados e respetiva utilização. A alteração de um termo, respetivas regras ou definição tem impacto nos respetivos itens associados.
  24. 24. Processos de Qualidade de Dados Pág. 24 Submissão de registo(s) de entidade(s) obtendo-se informação de negócio associada às mesmas. Webservice de Consulta
  25. 25. CC BY SA Privacy by Nick Youngson CC BY-SA 3.0 Alpha Stock Images Privacidade
  26. 26. Proteção de Dados Pág. 26 A partir das bases de dados MetaPrivacidade e Consentimentos, utilizando a classificação de varáveis na governação, quanto à criticidade de privacidade, ficam publicados na interface de visualização um conjunto de dashboards para acompanhamento dos indicadores de privacidade: • KPIs Estado das Recolhas, Estado da MetaPrivacidade • Análise de Risco MicroDados e Recolhas • Monitorização de registos de acesso consentimentos • Estado das recolhas e AIPD • KPIs Privacidade Privacidade
  27. 27. Proteção de Dados Pág. 27 Ferramenta interna desenvolvida pela DGEEC a partir de especificação de metadados no âmbito da privacidade  Ponto de partida para a criação da lógica de criação do ambiente de monitorização dos dados pessoais Metaprivacidade (metadados&privacidade)
  28. 28. Proteção de Dados Pág. 28 Safe Centre - Investigadores Processo genérico da aplicação da anonimização de microdados - DataSets Investigadores Fonte: “Introduction to Statistical Disclosure Control (SDC ).” IHSN Working Paper No. 007 (2014).
  29. 29. Proteção de Dados Pág. 29 Safe Centre - Investigadores Preparação dos dados Supressão de variáveis identificadoras Identificação de variáveis quase-identificadoras Transformação prévia de variáveis quase- identificadoras com grande dispersão de valores Integração no sdcMicro Importação dos microdados para R Criação do objeto SDC associado com base na identificação de variáveis efetuada anteriormente Avaliação do risco inerente aos dados Transformação no sdcMicro Execução de estratégias de mitigação de risco Avaliação da evolução do risco e da perda de informação Exportação dos dados protegidos Três fases principais: uma primeira fase de preparação dos dados e identificação de variáveis relevantes de privacidade; uma segunda fase de integração da informação no sdcMicro+R e respetiva avaliação de risco de reidentificação; e a execução de transformações sobre os dados com vista à sua proteção (anonimização).
  30. 30. MONITORIZAÇÃO Monitorizar
  31. 31. Monitorizar Pág. 31 1 1 2 2
  32. 32. Monitorizar Pág. 32 Informação Agregada
  33. 33. Projeto Wikimeia Commons Agile Project Management Projeto
  34. 34. Projeto Pág. 34 Milestones Data Plano Estimadas Estado Entregáveis Instalação software Out’ 2018 Executado Doc: Guia de Operação – Instalação/Manu tenção Doc: Plano de Testes e Aceitação Doc: Manual de Operações Análise de Fontes de Dados, Regras e Modelos de Dados Desenho de processos DQ e Modelo(s) GDPEF Análise de primitivas e regras de Privacidade Out/Nov’ 2018 Executado Processos ETL, Data Quality Nov/Dez’2018 Desenvolvimento Processos Privacidade Visualização de resultados: reports e dashboards Validação de Resultados (deploy consecutivo) Dez’2018 Planeado Formação Jan’2019 Documentação
  35. 35. Projeto Pág. 35 Out’18 Nov’18 Dez’18 Jan’19 (1ª Quinzena) • Instalação software • Análise de Fontes de Dados, Regras e Modelos de Dados • Desenho de processos DQ e Modelo(s) • Análise de primitivas e regras de Privacidade • Processos ETL, Data Quality • Processos Privacidade • Visualização de resultados: reports e dashboards • Formação • Documentação Doc: Manual Operação Solução Doc: Plano Testes/Aceitação Plano Projeto – Esquema Calendário Manual Instalação/Conf
  36. 36. Projeto Pág. 36 Assunto Nº sessões/workshops Data Quality & Governance (DataFlux) 8 Statistical Disclosure Control - Micro & Table Data 10 Apoio à Produção de Dados Estatística Oficial – Ensino Superior 12 Apoio à Produção de Dados Estatística Oficial – Ensino Básico e Secundário 8 Visual Analytics Administration and Reporting 4 Gestão da mudança  Número de pessoas envolvidas na organização – 40  Duração média de cada workshop – 2 horas  Sessões específicas por subgrupos de acordo com a especificidade do trabalho a desenvolver WorkShops – Realizadas nas instalações da DGEEC
  37. 37. Projeto Pág. 37 Gestão da mudança  Reuniões diárias de acompanhamento por parte do Gestor de contrato e de projeto, com o integrador.  Acompanhamento próximo dos utilizadores das ferramentas de acordo com a solução, pós formação.  Workshops desenhados de acordo com os dados relevantes e enquadrados na atividade profissional diária/periódica dos utilizadores.  Compromisso por parte da Direção e dirigentes . Como ?
  38. 38. Projeto Pág. 38 SponsorG.Projeto Equipae utilizadoreschave Fernando Campos (GP & GC) Luísa Loura Teresa Evaristo, João Batista Jorge Teixeira Miguel Dinis Isaque Gomes Jorge Pinto (IT) Luis Martinho (BD) Joana Duarte Ricardo Santos Catarina Afflalo (Estudos) Nuno Rodrigues Carlos Malaca Marta Oliveira … (Ens.Superior) Alexandre Paredes Filomena Oliveira (Ciência e Tecnologia) Nuno Rodrigues Joaquim Santos Rui Mestre (Ensino Básico Secundário) Paula Ferreira (Formação - SIGO) Equipas de Projeto da DGEEC
  39. 39. Fonte wikipedia , 2005 internet network Visualização
  40. 40. Visualização/Reporting Pág. 7 Acesso a grandes volumes de dados Juntar tabelas, filtrar dados e calcular colunas Descobrir e explorar relações entre variáveis Visuais que incluem previsão, correlações, box plots, heatmaps, gráficos , apresentação geográfica Capacidade para trabalhar com modelação de classificação usando regressão logística e árvores de decisão Segmentação orientada por dados usando clustering Criar relatórios ou painéis personalizados por meio de uma interface de arrastar e soltar Aceder aos relatórios / painéis existentes através de seus dispositivos móveis (tablets) Aceder aos relatórios / painéis existentes através das aplicações office PLATAFORMA VISUALIZAÇÃO Fonte: Sistema da DGEEC Visualização e reporting
  41. 41. Visualização/Reporting Pág. 7 CONSTRUÇÃO DE ANÁLISE DE FORMA INCREMENTAL Fonte: Apresentação DataQuality Viya para a DGEEC
  42. 42. Visualização/Reporting Pág. 7 Exemplo de exercício desenvolvido durante WorkShops Vista mascarada a partir de dados reais – Zona verde – Dados pessoais inexistentes (anonimização DataSet) (VisualAnalytics&Statistics)
  43. 43. Referências Campos,F. . DataQuality – Componentes Percursos Educativos e Formativos, 2018. Documentos não publicados. Direção-Geral de Estatísticas da Educação e Ciência. Campos, F. . Técnicas Anonimização Microdados, 2017. Manuscrito não publicado. Direção-Geral de Estatísticas da Educação e Ciência. Campos, F. . Safe Centre Investigadores, 2017 . Manuscrito não publicado. Direção-Geral de Estatísticas da Educação e Ciência. A. Kowarik, M. Templ, B. Meindl, and F. Fonteneau. sdcMicroGUI: Statistical Disclosure Control for Micro-Data Using the R Package sdcMicro. M. Templ, A. Kowarik, and B. Meindl. sdcMicro: Statistical Disclosure Control methods for the generation of public- and scientific-use files. Manual and Package., 2013. URL http://CRAN.R-roject.org/package=sdcMicro. R package version 4.1.1. M. Templ, B. Meindl and A. Kowarik : Introduction to Statistical Disclosure Control (SDC). https://www.data-analysis.at/de_DE/geheimhaltung/. A. Gregory. The Data Documentation Initiative (DDI): An Introduction for National Statistical Institutes, 2011. Open Data Foundation. DDI Alliance. DDI specification, 2018. URL http://www.ddialliance.org/specification SAS. SAS Data Quality, 2018. URL https://www.sas.com/en_us/software/data-quality.html Campos,F. , Santos, J. , Malaca, C. . Harmonização variáveis de microdados, 2017. Manuscrito não publicado. Direção-Geral de Estatísticas da Educação e Ciência. Campos, F. (org.) . Lista de variáveis chave privacidade, 2018. Documento não publicado. Direção-Geral de Estatísticas da Educação e Ciência. 43

×