Jido2015 02-21

1 234 vues

Publié le

La qualité des données est essentielle pour passer à la prochaine étape de maturité en gestion des connaissances, soit le Web sémantique, les bases de données orientées graphe et la visualisation.

Publié dans : Données & analyses
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
1 234
Sur SlideShare
0
Issues des intégrations
0
Intégrations
70
Actions
Partages
0
Téléchargements
15
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive
  • Merci d’être venu en si grand nombre à cette présentation
    Thank you for coming in such numbers at this presentation
    Définition de la qualité des données
    Constats (recherche-action)
    Pistes de solution
    qui pourront être suivies d’une discussion
  • Les données n'ont pas beaucoup de sens en tant que telles. Ce sont les personnes qui, grâce à des outils, peuvent raconter des histoires et répondre à des questions,
    par exemple, à l'aide des fameuses questions d'Aristote, soit les « 5W1H »
    OÙ QUOI QUAND POURQUOI QUI COMMENT?
    auxquelles j'ajoute toujours l'étonnement et le doute
    Ainsi, grâce à la visualisation des données, des intermédiaires tels que vous
    (professionnels de l'information et des données,
    journalistes, développeurs d’applications,
    Scientifiques et autres professionnels),
    peuvent expliciter,
    aux citoyens ordinaires, aux dirigeants et aux autres scientifiques et professionnels,
    les situations toujours plus complexes et aider à appréhender la réalité
    Cela, appuyé par des faits.
    Pour moi, la visualisation des données est instrumentale, esthétique et émancipatoire.
    Par exemple, elle peut aider
    À détecter des erreurs, à révéler la corruption ou tout simplement à réfléchir
    (par induction, par déduction et surtout par abduction)
    L’abduction est une forme de raisonnement intuitif qui consiste à supprimer les solutions improbables. Cette notion s’oppose à une logique d’exploration systématique (Wikipedia)
  • Le monde des données évolue rapidement sur un axe de complexité croissante qui peut être exprimé en
    VOLUME – VÉLOCITÉ – VARIÉTÉ
    On parle alors d'échantillons, de dépôts de données et de mégadonnées qui co-existent
    MAIS les silos persistes toujours
  • Si les données sont des véhicules pour le transfert des connaissances,
    la révolution des données peut aussi être représentée sur trois axes :
    relationnel | cognitif | contextuel
    Les données sont, de façon incrémentale, enrichies de relations, d'éléments de compréhension et de contexte (les personnes, l’espace et le temps).
    Ces transformations de données permettent aux personnes d’être intelligentes
  • Les données qui sont mises en relations, analysées et comprises
    passent aussi dans un cycle incrémental allant de la création à l'utilisation.
    Les critères de qualité se concentrent autour de principes : l’exhaustivité (completless), la cohérence (Consistency ), la précision (accuracy). S’ajoutent les dimensions de temps et de territoire et celle de l’interopérabilité par les formats ouverts. Ces principes s’appuient sur des valeurs importantes : l’accessibilité, l’autonomie, le partage et la liberté.
    Minimalement accessibles dans le Web sous licence ouverte, on préfère les données lorsqu’elles sont structurées, balisées et interopérables, grâce aux formats ouverts, de même qu’avec un identifiant unique. La forme de données ouvertes liées est c elle de qualité supérieure (le RDF dans des dépôts de triplets).
    En ce qui concerne les contributions d’utilisateurs (crowdsourcing), n’oublions pas qu’ils devraient contrôler l’accès à leurs données, connaître où elles sont stockées et pouvoir les extraire sous formats ouverts en tout temps.
    Par convention, ce sont les métadonnées qui définissent la qualité des ensembles de données et de leurs ressources. Ces métadonnées devraient être normalisées (ontologies, vocabulaires, facettes, balises et autres), par exemple dans le catalogue CKAN qui a adopté DCAT ou, encore, le 311 et le 511 ouvert
  • Les données qui sont mises en relations, analysées et comprises
    passent aussi dans un cycle incrémental allant de la création à l'utilisation.
    Les critères de qualité se concentrent autour de principes : l’exhaustivité (completless), la cohérence (Consistency ), la précision (accuracy). S’ajoutent les dimensions de temps et de territoire et celle de l’interopérabilité par les formats ouverts. Ces principes s’appuient sur des valeurs importantes : l’accessibilité, l’autonomie, le partage et la liberté.
    Minimalement accessibles dans le Web sous licence ouverte, on préfère les données lorsqu’elles sont structurées, balisées et interopérables, grâce aux formats ouverts, de même qu’avec un identifiant unique. La forme de données ouvertes liées est c elle de qualité supérieure (le RDF dans des dépôts de triplets).
    En ce qui concerne les contributions d’utilisateurs (crowdsourcing), n’oublions pas qu’ils devraient contrôler l’accès à leurs données, connaître où elles sont stockées et pouvoir les extraire sous formats ouverts en tout temps.
    Par convention, ce sont les métadonnées qui définissent la qualité des ensembles de données et de leurs ressources. Ces métadonnées devraient être normalisées (ontologies, vocabulaires, facettes, balises et autres), par exemple dans le catalogue CKAN qui a adopté DCAT ou, encore, le 311 et le 511 ouvert
  • Les données qui sont mises en relations, analysées et comprises
    passent aussi dans un cycle incrémental allant de la création à l'utilisation.
    Les critères de qualité se concentrent autour de principes : l’exhaustivité (completless), la cohérence (Consistency ), la précision (accuracy). S’ajoutent les dimensions de temps et de territoire et celle de l’interopérabilité par les formats ouverts. Ces principes s’appuient sur des valeurs importantes : l’accessibilité, l’autonomie, le partage et la liberté.
    Minimalement accessibles dans le Web sous licence ouverte, on préfère les données lorsqu’elles sont structurées, balisées et interopérables, grâce aux formats ouverts, de même qu’avec un identifiant unique. La forme de données ouvertes liées est c elle de qualité supérieure (le RDF dans des dépôts de triplets).
    En ce qui concerne les contributions d’utilisateurs (crowdsourcing), n’oublions pas qu’ils devraient contrôler l’accès à leurs données, connaître où elles sont stockées et pouvoir les extraire sous formats ouverts en tout temps.
    Par convention, ce sont les métadonnées qui définissent la qualité des ensembles de données et de leurs ressources. Ces métadonnées devraient être normalisées (ontologies, vocabulaires, facettes, balises et autres), par exemple dans le catalogue CKAN qui a adopté DCAT ou, encore, le 311 et le 511 ouvert
  • Les données qui sont mises en relations, analysées et comprises
    passent aussi dans un cycle incrémental allant de la création à l'utilisation.
    Les critères de qualité se concentrent autour de principes : l’exhaustivité (completless), la cohérence (Consistency ), la précision (accuracy). S’ajoutent les dimensions de temps et de territoire et celle de l’interopérabilité par les formats ouverts. Ces principes s’appuient sur des valeurs importantes : l’accessibilité, l’autonomie, le partage et la liberté.
    Minimalement accessibles dans le Web sous licence ouverte, on préfère les données lorsqu’elles sont structurées, balisées et interopérables, grâce aux formats ouverts, de même qu’avec un identifiant unique. La forme de données ouvertes liées est c elle de qualité supérieure (le RDF dans des dépôts de triplets).
    En ce qui concerne les contributions d’utilisateurs (crowdsourcing), n’oublions pas qu’ils devraient contrôler l’accès à leurs données, connaître où elles sont stockées et pouvoir les extraire sous formats ouverts en tout temps.
    Par convention, ce sont les métadonnées qui définissent la qualité des ensembles de données et de leurs ressources. Ces métadonnées devraient être normalisées (ontologies, vocabulaires, facettes, balises et autres), par exemple dans le catalogue CKAN qui a adopté DCAT ou, encore, le 311 et le 511 ouvert
  • Après plus de 4 années de recherche-action, je constate que la qualité des données est le résultat d’une négociation entre les utilisateurs et de nombreux autres acteurs :
    créateurs, scientifiques, professionnels de l’information et des données, professionnels des technologies, professionnels des communications et des relations publiques, dirigeants, élus...
    Le dialogue et la rétroaction entre les utilisateurs et les fournisseurs de données sont certainement les meilleurs moyen de mettre en place les mesures satisfaisantes de qualité des données ouvertes
    Par exemple, les commentaires aux ensembles de données, les demandes publiques de données ouvertes, les messages dans les groupes de discussions, les activités de codéveloppement et les sondages sont des démarches collectives à privilégier. Cette position exige une transformation de culture organisationnelle.
    Les demandes d’accès à l’information et les courriels génériques ne sont que des démarches individuelles.
    Mise en garde : les approches de «divulgation proactive» et de libre-accès doivent être faites dans une approche de libération de données, c’est-à-dire permettre la réutilisation et la redistribution.
  • La réalité nous rattrape très vite.
    Autant les citoyens ordinaires que les employés ordinaires n’ont pas la numératie ni les outils de travail intellectuel qui leur permettraient d’agir efficacement dans le processus de libération des données
    Sur une courbe de maturité, nous sommes ICI, à la toute petite enfance.
    À titre d’exemple, de nombreux employés publics ne peuvent utiliser que des outils obsolètes : MS Office 2003 sans MSAccess … ce qui force l’utilisation excessive de macros et impose des limites en terme de rangées et colonnes
    (row/colomn excel : 2007-2013 (LO 3.3.3) :1,048,576/16,384 ; 2003 (LO 3.3.2): 65,536/256)
    Il y a l’existence de données anciennes non actualisées, de données imprécises, non validées, des données manquantes qu’on pourrait pallier par des techniques d’interpolation, ou encore, des données privées qu’on peine à anonymiser .
    Même avec des données « parfaites », des biais et des mensonges peuvent être introduits dans les visualisations d’où l’importance de la numératie de ceux qui consultent ces résultats d’analyse.
    Nous avons devant nous encore quelques années à utiliser des dépôts décentralisés et hétérogènes… Il faudra donc collaborer au lieu de souhaiter tout contrôler « dans le nuage »… Il vaudra peut-être mieux avoir de bonnes « petites» données que des mégadonnées inaccessibles, de moins en moins récupérables et contrôlés par des tiers privateurs.
  • Engagement des citoyens mais aussi des fournisseurs de données (organismes publics, académiques et scientifiques)
    Gouvernance des bonnes pratiques de gestions de l’information
    (des données à la sagesse)
    l'adoption de processus et de méthodes de travail centrés sur la qualité des données, par exemple qui documentent le savoir-faire dans le but de faciliter le transfert;
    l'adoption et l'utilisation de normes ouvertes et du logiciel libre, entre autres les séries bureautiques libres telles que LibreOffice
    la mise en œuvre et le maintien de la gestion intégrée et durable de l'information;
    L’encadrement de l’impartition
    Autonomisation des personnes et des groupes en vue d’une émancipation
    l'embauche de professionnels spécialisés en sciences de l'information et intégrés aux équipes multidisciplinaires;
    le développement des compétences numériques des employés publics ainsi que des citoyens;
    Des outils « démocratisés» d’extraction, de transformation et de chargement des données (ETL tools)
    Permettre enfin l’informatique de l’utilisateur final
    Valorisation des intermédiaires de données
    Professionnels de l’information et des données
    Développeurs d’applications
    Journalistes de données
  • À moyen terme, l'adoption de normes ouvertes permettra d'accéder à une phase plus sophistiquée du Web, celui du Web sémantique.
    Le prérequis est d’apprendre à apprendre et vivre dans des communautés apprenantes (grandes ou petites)
    La qualité des données ouvertes et leur réutilisation constituent ensemble un indice du niveau de transparence d’une administration publique.
    Cette transparence implique une vigilance et un engagement social de tous les intervenants qui collaborent à l'avancement de la transformation de notre monde.
  • Jido2015 02-21

    1. 1. Données ouvertes, qualité et visualisation Diane Mercier, Ph.D. Ambassadrice de l’Open Knowledge au Canada Montréal Journée internationale des données ouvertes, 2015-02-21
    2. 2. Raconter des histoires, être étonné, douter, croire... Who How ? Diane Mercier, Ph.D., 2015-02-21
    3. 3. La révolution des données 3V : VOLUME + VÉLOCITÉ + VARIÉTÉ Passage et coexistence : « Petites données » < – > « Mégadonnées » Diane Mercier, Ph.D., 2015-02-21
    4. 4. Le spectre du savoir. © Diane Mercier, 2005, 2007, 2014 L'accélération du transfert des connaissances Complexité des relations Compréhension Complexité du contexte Chaos Données Information Connaissances Sagesse Compréhension des principes Compréhension des modèles Compréhension des relations Diane Mercier, Ph.D., 2015-02-21
    5. 5. Qualité des données ouvertesCycledutransfert Créer Organiser Diffuser Utiliser Définition de l'OK et Sunlight Foundation Manifeste des données utilisateurs « 5 stars» (Berners-Lee, 2006) adoptées par CKAN Diane Mercier, Ph.D., 2015-02-21
    6. 6. Qualité des données ouvertesCycledutransfert Créer Organiser Diffuser Utiliser Définition de l'OK et Sunlight Foundation Libre accès | Redistribution | Réutilisation Absence de restriction technique Attribution | Intégrité Non discrimination de personnes | de groupes | de domaines d'application Mise à disposition de la licence non exclusive et sans restriction la distribution d'autres oeuvres Diane Mercier, Ph.D., 2015-02-21
    7. 7. Qualité des données ouvertesCycledutransfert Créer Organiser Diffuser Utiliser Manifeste des données utilisateurs Diane Mercier, Ph.D., 2015-02-21
    8. 8. Qualité des données ouvertesCycledutransfert Créer Organiser Diffuser Utiliser Web et licence ouverte Données structurées Formats ouverts, normes ouvertes Identifiant unique (URI) Web sémantique (RDF, RDFa, graphes) Diane Mercier, Ph.D., 2015-02-21
    9. 9. Constats de la recherche-action (2010-2014) Par le dialogue et la rétroaction La qualité des données est le résultat d'une négociation utilisateurs - fournisseurs Exemples : SEAO et l’IQD Résultats de recherches action Diane Mercier, Ph.D., 2015-02-21 Engagement Gouvernance des bonnes pratiques Autonomisation Intermédiarité
    10. 10. Mercier, 2014; Kitchin, 2014 Nous sommes ici… à la petite enfance (Trad. de Suresh et Maresh, 2006:39 par Mercier, 2007) Voir aussi : ODI Open Data Maturity Model (Trad) 2007) Diane Mercier, Ph.D., 2015-02-21
    11. 11. Discussion | Pistes de solution | Avenues de recherche Diane Mercier, Ph.D., 2015-02-21 Le Web des données OpenGLAM L'École des données School of Data Cours simple pour nettoyer Dualité de l'ouverture des données Guide du journalisme des données (datajournalism)
    12. 12. http://dianemercier.quebec @carnetsDM | @OKFNca LICEF (TÉLUQ) Webbographie du libre
    13. 13. Données ouvertes, qualité et visualisation Références Extraits de la Webographie du libre | Données ouvertes, qualité et visualisation • 3D Visualization: Need For Data Quality | 3DVW. (n.d.). Repéré à http://www.3dvisworld.com/3DVW/?p=370 • 5 conditions pour favoriser l’ouverture des données | Les carnets de Diane Mercier. (n.d.). Repéré à http://dianemercier.com/5-conditions-pour-favoriser-louverture- des-donnees/ • Audet, M. (1994). Plasticité, instrumentalité et réflexivité. Dans Cartes cognitives et organisations (pp. 187‑198). Sainte-Foy, Québec : Les Presses de l’Université Laval ; Éditions ESKA.  • COMSODE. (2014). Components Supporting the Open Data Exploitation » Deliverables. Repéré à http://www.comsode.eu/index.php/deliverables/  • Do visualizations need to be « accurate »? — Fell in Love with Data. (n.d.). Repéré à http://fellinlovewithdata.com/reflections/accurate-visualization • Foucault, Michel. (1980). Power / Knowledge: Selected Interviews and other writings, 10972-1977. (S.l.) : Pantheon Books. Repéré à https://fr.scribd.com/doc/33534668/Foucault-Power-Knowledge • Four critiques of open data initiatives | The Programmable City. (n.d.). Repéré à http://www.maynoothuniversity.ie/progcity/2013/11/four-critiques-of-open-data- initiatives/ • Guidoin, Stéphane, & McKinney, James. (2012). Open Data, Standards and Socrata. Repéré à http://blog.opennorth.ca/2012/11/22/open-data-standards/ • Kitchin, Rob. (n.d.). The Data Revolution: Big Data, Open Data, Data Infrastructures and Their Consequences. Repéré à http://www.uk.sagepub.com/books/Book242780 • Kitchin, Rob, & Lauriault, Tracey. (2014). Small data in the era of big data - Online First - Springer. GeoJournal. Repéré à http://link.springer.com/article/10.1007%2Fs10708-014-9601-7 • Lemieux, Victoria. (n.d.). Why we’re failing to get the most out of open data - Forum:Blog Forum:Blog | The World Economic Forum. Repéré à http://forumblog.org/2014/09/open-data-information-governance-quality/ • Mercier, D. (2007). Le transfert informel des connaissances tacites chez les gestionnaires municipaux en situation de coordination. Thèse numérique pour un grade de Ph.D. Université de Montréal, École de bibliothéconomie et des sciences de l’information, Montréal. (Pierrette Bergeron, Ph.D., directrice de recherche.). Repéré à https://papyrus.bib.umontreal.ca/xmlui/handle/1866/780 • Mercier, D. (2013). De l’engagement citoyen. Argus, (automne), 38‑39. • Polanyi, Michael. (1951). La Logique de la liberté. Paris : Presses universitaires de France. Repéré à http://www.institutcoppet.org/wp-content/uploads/2012/06/La- logique-de-la-libert%C3%A9.pdf • Pollock, Rufus. (2013). Forget big data, small data is the real revolution | News | theguardian.com. Repéré à http://www.theguardian.com/news/datablog/2013/apr/25/forget-big-data-small-data-revolution • Processus de libération des données - Document en progrès. (n.d.). Repéré à http://donnees.ville.montreal.qc.ca/aide-et-entraide/processus-de-liberation-des- donnees/ • Storytelling: ncva.itn.liu.se: Linköping University. (n.d.). Repéré à http://ncva.itn.liu.se/storytelling?l=en • Training Students to Extract Value from Big Data: Summary of a Workshop. (2014). (S.l.) : National Academies Press. Repéré à http://www.nap.edu/catalog.php? record_id=18981 • Working Paper 3: Republic of Ireland’s Open Data Strategy: Observations and Recommendations by Tracey P. Lauriault :: SSRN. (n.d.). Repéré à  http://papers.ssrn.com/sol3/papers.cfm?abstract_id=2508016 • Yau, Nathan. (2013). Data visualisation - De l’extraction des données à leur... - Librairie Eyrolles (Eyrolles). (S.l.) : (s.n.). Repéré à http://www.eyrolles.com/Informatique/Livre/data-visualisation-9782212135992 Diane Mercier, Ph.D., 2015-02-21
    14. 14. Données ouvertes, qualité et visualisation Sources des images 1 : http://dianemercier.com 2 : http://ncva.itn.liu.se/storytelling?l=en 3 : https://plus.google.com/photos/ +AgostinaBerardi/albums/5627159426113221681/57647679163105 29330?pid=5764767916310529330&oid=104003515734304964892 4 : http://web-in-elsass.soup.io/tag/Alsace%20%C3%A9conomique 5 : http://www.podcastscience.fm/dossiers/2011/03/17/la-suite-de- fibonacci-nombre-d-or/attachment/coquille_mollusque/ 6 : Fusion Communications et Design - http://www.carrefourmunicipal.qc.ca/images/documents/Publication/ Magazines/2014/Automne_2014.pdf 7 : http://dianemercier.quebec 8 : Fusion Communications et Design - http://www.carrefourmunicipal.qc.ca/images/documents/Publication/ Magazines/2014/Automne_2014.pdf 9 : Michel Falardeau - http://revueargus.org/?page_id=926 Diane Mercier, Ph.D., 2015-02-21

    ×